很多站長最頭疼的一個問題就是,搜索引擎蜘蛛為什么不光顧自己的網(wǎng)站,或者光顧頻率比較低。這樣對網(wǎng)站收錄的影響是比較大的,直接影響到網(wǎng)站的排名。
先談一下搜索引擎蜘蛛的工作原理吧,蜘蛛又稱網(wǎng)絡(luò)爬蟲、網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人,更生動的叫網(wǎng)頁追逐者。一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網(wǎng)絡(luò)爬蟲
你知道萬維網(wǎng)中有多少蜘蛛嗎?下面介紹一下全球知名的蜘蛛,NO1:谷歌蜘蛛:google 谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;” “Googlebot-Mobile”,看名字是抓取wap內(nèi)容的:,全球最大的搜索引擎公司。NO2:百度蜘蛛:Baiduspider 常見百度旗下同類型蜘蛛還有下面這些Baiduspider-mobile(wap引擎)、Baiduspider-image(搜圖引擎 )、Baiduspider-video(視頻引擎)Baiduspider-news(新聞引擎),中文搜索引擎最強的公司。NO3:360蜘蛛:360Spider。NO4:SOSO蜘蛛,NO4:Sosospider 雅虎蜘蛛,NO:5“Yahoo! Slurp China”或者Yahoo!NO6: 有道蜘蛛:YoudaoBot,YodaoBot,NO7: 搜狗蜘蛛:Sogou News Spider,這些是全球最出名的蜘蛛,其實還有好多我就不一一列舉了。
蜘蛛特點就是通過結(jié)網(wǎng)來捕獲獵物,所以我們的網(wǎng)站就跟獵物一樣等蜘蛛來捕獲,如果網(wǎng)站內(nèi)容新穎獨特,更新內(nèi)容頻率高蜘蛛就會經(jīng)常光顧你的網(wǎng)站。但是也不能讓蜘蛛隨便抓取,比如后臺地址,所以就有了robots這個協(xié)議,這個很重要如果robots.txt協(xié)議寫的好可以事半功倍。下面介紹一下robots.txt協(xié)議怎么寫可以迎合蜘蛛的口味:
User-agent: *
開頭字母必須是大寫的,后面加英文形式下的冒號,然后后面是空格。
*表示通配符號。這里指通配所有的搜索引擎。
Disallow: / 表示禁止搜索引擎爬取所有頁面,/表示目錄。
Disallow: 表示不禁止
Disallow: /admin/禁止爬取admin后臺目錄。
Disallow: /admin 禁止抓取包含admin的路徑 后面不帶/表示只要路徑中包含admin蜘蛛就不會抓取。
Allow: 表示允許
Allow: /admin/s3.html 允許抓取admin目錄下的s3.html 這個文件。
Disallow: /.css$ 表示以.css結(jié)尾的文件都不允許抓取,帶上$表示特定的文件。
3.robots.txt協(xié)議寫法注意點
注意:
所有的語法必須空格/開頭,所有正規(guī)的搜索引擎在抓取網(wǎng)站URL的時候會第一時間抓取robots.txt,如果沒有robots.txt文件,蜘蛛會默認網(wǎng)站允許抓取所有信息。
網(wǎng)站地圖放在robots.txt文件里。
所以把網(wǎng)站地圖放在robots.txt文件夾里可以讓蜘蛛更快速的抓取網(wǎng)站路徑。 把做好的XML地圖寫在robots.txt文件里上傳根目錄就好。
總結(jié):robots協(xié)議對偽靜態(tài)的網(wǎng)站很重要,如果沒有robots協(xié)議搜索引擎就會重復收錄對網(wǎng)站權(quán)重排名有影響。robots協(xié)議最后必須加入網(wǎng)站地圖,這樣才會更好的引導蜘蛛抓取你的網(wǎng)站。
本文由鹽城SEO吉中春原創(chuàng),原文地址,轉(zhuǎn)摘請保留版權(quán),謝謝。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!