相信大家在分析百度蜘蛛日志的時候經(jīng)常會發(fā)現(xiàn)一個問題,就是百度蜘蛛經(jīng)常會抓取一些不存在的目錄,比如:我網(wǎng)站沒有這些目錄,但是百度蜘蛛一直在抓取,或者你會發(fā)現(xiàn)百度蜘蛛在抓取自己的隱私目錄,或者說php文件,這個是為什么哪?今天就為大家進行詳細(xì)解析,講解對應(yīng)的解決辦法,本篇文章干貨較多,建議仔細(xì)閱讀。
1,如果蜘蛛只抓取首頁,打死不抓取內(nèi)頁,是什么情況!很簡單,域名有問題,一般來講,如果遇到這種情況,域名目前可能在審核期,也就是說,做過違規(guī)行業(yè),或者你的程序有作弊的嫌疑,但是域名的占比較大,如果程序有問題,開始百度蜘蛛也會抓取一些的。
2,如果百度蜘蛛抓取一些隱私文件,例如php、zip、rar什么情況!對于這種情況,你要去判斷當(dāng)前這個IP是不是假蜘蛛文件,因為現(xiàn)在很多IP會自動更改自己的UA,跟百度蜘蛛一樣,你無法從蜘蛛日志中分辨,你可以去識別下IP,通過ip138看看是不是蜘蛛IP,如果不是,果斷屏蔽掉,如果太多,按照IP段進行屏蔽。
3,如果百度蜘蛛抓取一些隱私目錄,真蜘蛛的情況下,怎么處理。如果你確認(rèn)是真的百度蜘蛛,百度可能是在抓取你的頁面內(nèi)部程序,考察你用的程序的版本,等,這些百度都會有分辨策略的,一般來講,自己編寫的程序,百度都會優(yōu)先給予高評分,是這樣的。我們?yōu)榱朔乐怪┲胱ト∥覀兊碾[私目錄,我們一般都會用robots.txt進行屏蔽,記?。荷r間24小時左右。
4,如果蜘蛛抓取一些不存在的目錄,一些不存在的文件,怎么辦?
首先依然是判斷是否是真蜘蛛,如果是真蜘蛛,百度抓取一些不存在的目錄,是因為,你這個域名之前做過一些站點,現(xiàn)在又開始做,百度會根據(jù)之前的評分、URL進行抓取,看看是不是之前的站點又恢復(fù)了,一般來講,這種抓取會在30天內(nèi)自動消失的,如果30天后一直存在,你就要屏蔽這類鏈接了,總之:這種抓取對于你的站點,沒有太大的傷害,只是排查而已。
另外還有一種情況,如果你把其他的站點301到你當(dāng)前的域名上,蜘蛛就會按照其他站點的URL來抓取你的網(wǎng)站,這個時候你也會發(fā)現(xiàn)百度在抓取一些不存在的目錄,不過不用怕,這種對于你的站點沒有傷害的。
5,蜘蛛抓取,301、304,、200、403、404、444狀態(tài)碼怎么辦?
首先我們要明白,301狀態(tài)碼,就是重定向,如果你的頂級域名,例如daidaiseo.com-》www.daidaiseo.com當(dāng)百度抓取daidaiseo.com上面的資源時,就會出現(xiàn)301重定向的代碼,如果抓取www.daidaiseo.com上面的資源,就會是200狀態(tài)碼,意思是抓取成功。
而抓取304狀態(tài)碼是為什么那?如果你在日志上看到了304狀態(tài)碼,則表示,你的資源一直都沒有變化,屬于靜態(tài)頁面資源,304狀態(tài)碼,對于網(wǎng)站的影響比較小,一般來講是做了百度cdn,有緩存,就容易出現(xiàn)304狀態(tài)碼,但只要你每天給百度提交資源,時時保持更新,就沒事。
403是權(quán)限問題,禁止訪問,是你服務(wù)器進行了設(shè)置,而444則是未找到服務(wù)器,404則是空頁面,這個頁面丟失,這三個狀態(tài)碼,則表示網(wǎng)站出現(xiàn)問題,記住:不要讓網(wǎng)站出現(xiàn)大量404,你可以讓狀態(tài)碼變成403只是限制訪問,如果都是404,則表明網(wǎng)站大量頁面不可用,百度評分就會降低,好了,今天就講解到這么多,后面會陸續(xù)分享這方面的知識點。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!