當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

robots的規(guī)則協(xié)議和基本寫法

 2015-05-13 21:51  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

一、robots基本概念

robots.txt文件是網(wǎng)站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個文件,根據(jù)里面的內(nèi)容來決定對網(wǎng)站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng) 站剛剛創(chuàng)建,有些內(nèi)容還不完善,暫時還不想被搜索引擎收錄時。

幾點注意:

網(wǎng)站必須要有一個robot.txt文件。

robots.txt文件應該放置在網(wǎng)站根目錄下

文件名是小寫字母。

當需要完全屏蔽文件時,需要配合meta的robots屬性。

二、robots.txt的基本語法

內(nèi)容項的基本格式:鍵: 值對。

1) User-Agent鍵

后面的內(nèi)容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。

一般我們這樣寫:

User-Agent: *

表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復寫。

注意:User-Agent:后面要有一個空格。

在robots.txt中,鍵后面加:號,后面必有一個空格,和值相區(qū)分開。

2)Disallow鍵

該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。

例如:Disallow: /index.php 禁止網(wǎng)站index.php文件

Allow鍵

該鍵說明允許搜索引擎蜘蛛爬行的URL路徑

例如:Allow: /index.php 允許網(wǎng)站的index.php

通配符*

代表任意多個字符

例如:Disallow: /*.jpg 網(wǎng)站所有的jpg文件被禁止了。

結(jié)束符$

表示以前面字符結(jié)束的url。

例如:Disallow: /?$ 網(wǎng)站所有以?結(jié)尾的文件被禁止。

三、robots.txt實例分析

例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的搜索引擎訪問網(wǎng)站的任何部分

User-agent: *

Disallow:

例3. 僅禁止Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow:

例5. 禁止spider訪問特定目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事項:1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。

例6. 允許訪問特定目錄中的部分url

我希望a目錄下只有b.htm允許訪問,怎么寫?

User-agent: *

Allow: /a/b.htm

Disallow: /a/

注:允許收錄優(yōu)先級要高于禁止收錄。

從例7開始說明通配符的使用。通配符包括("$" 結(jié)束符;

"*"任意符)

例7. 禁止訪問網(wǎng)站中所有的動態(tài)頁面

User-agent: *

Disallow: /*?*

例8. 禁止搜索引擎抓取網(wǎng)站上所有圖片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用,相信很多情況是可以解決的。

四、meta robots標簽

meta是網(wǎng)頁html文件的head標簽里面的標簽內(nèi)容。它規(guī)定了此html文件對與搜索引擎的抓取規(guī)則。與robot.txt 不同,它只針對寫在此html的文件。

寫法:

…里面的內(nèi)容列出如下

noindex - 阻止頁面被列入索引。

nofollow - 阻止對于頁面中任何超級鏈接進行索引。

noarchive - 不保存該頁面的網(wǎng)頁快照。

nosnippet - 不在搜索結(jié)果中顯示該頁面的摘要信息,同時不保存該頁面的網(wǎng)頁快照。

noodp - 在搜索結(jié)果中不使用Open Directory Project中的描述信息作為其摘要信息

SEO專題推薦:

關鍵詞優(yōu)化專題:網(wǎng)站關鍵詞優(yōu)化沒效果?來這里學習最實用的關鍵詞優(yōu)化技巧!

內(nèi)鏈優(yōu)化專題:最能提升網(wǎng)站權重的內(nèi)鏈部署優(yōu)化技巧與方法

外鏈建設專題:高質(zhì)量自然外鏈怎么做?讀完這些你將質(zhì)的飛躍

網(wǎng)站降權專題:2015年最有用的網(wǎng)站降權、被K、被黑、被攻擊的解決方法

用戶體驗專題:學習完這些,作為站長的你可以秒懂如何做網(wǎng)站用戶體驗

行業(yè)網(wǎng)站專題:優(yōu)化行業(yè)網(wǎng)站的“葵花寶典”看完后無優(yōu)化壓力

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
robots標簽

相關文章

  • robots具體應該禁止些什么文件

    今天大概總結(jié)一下:首先說明一點:每天百度派出的蜘蛛是有限的,robots寫出來是為了節(jié)省蜘蛛資源讓蜘蛛能更快的進行有效爬取和收錄!

  • 你不知道的robots文件那些事

    實際上百度只是擔心由于網(wǎng)站管理員不懂得robots.txt語法,導致搜索引擎蜘蛛無法正常抓取網(wǎng)站,才這樣寫的。建立robots.txt文件還是必需的,哪怕這個robots.txt文件是一個空白的文本文檔都可以。因為我們的網(wǎng)站畢竟不是僅僅會被百度收錄,同時也會被其他搜索引擎收錄,上傳一個空白的robo

    標簽:
    robots標簽
    robots
  • 解除網(wǎng)站Robots封禁全過程

    obots協(xié)議或者說robots文件對搜索引擎優(yōu)化中非常重要,但設置出錯可能會導致收錄下降或不能正常收錄。今天,小小課堂SEO自學網(wǎng)帶來的是《【robots文件協(xié)議】解除Robots封禁全過程》。希望本次的百度SEO優(yōu)化培訓對大家有所幫助。

  • 熊掌號必備seo知識1:robots文件

    最近很多站長咨詢關于熊掌號的問題,包括熊掌號和傳統(tǒng)seo之間的關系等,熊掌號在給網(wǎng)站提供更多的品牌特型、內(nèi)容保護之外,是否會遵循seo的基礎原理呢?曲曲小姐姐將在以后給大家逐一分享。

  • 網(wǎng)站上線前把robots寫了所有蜘蛛禁止抓取,取消后還是這樣怎么辦

    不知道有沒有其他站長跟我一樣,技術部把網(wǎng)站后臺搭建好了,然后網(wǎng)站還是很多東西需要修改的,特別是TDK改了一遍又一遍,但是這時候我沒有去百度站長申請閉站保護,卻是在網(wǎng)站根目錄上傳了robots文件,里面寫著:User-agent:*Disallow:/這表示我的網(wǎng)站禁止所有蜘蛛來抓取,那么這種情況有什

    標簽:
    robots標簽
    robots

熱門排行

信息推薦