當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

如何利用robots.txt對(duì)wordpress博客進(jìn)行優(yōu)化

 2015-03-16 16:14  來(lái)源: 月光博客   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

筆者在百度站長(zhǎng)平臺(tái)檢測(cè)自己的博客時(shí),出于優(yōu)化的慣性,對(duì)博客的Rbots進(jìn)行了檢測(cè),進(jìn)而在百度搜索了wordpress博客robots的寫(xiě)法設(shè)置問(wèn)題,看了很多wordpress高手對(duì)robots優(yōu)化設(shè)置后,終于有所領(lǐng)悟,在此也分享給一些wordpress新手看看如何去善用robots.txt對(duì)wordpress博客進(jìn)行優(yōu)化。

一、先來(lái)普及下robots.txt的概念:

robots.txt(統(tǒng)一小寫(xiě))是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱(chēng)網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍,一定程度上保護(hù)站點(diǎn)的安全和隱私。同時(shí)也是網(wǎng)站優(yōu)化利器,例如屏蔽捉取站點(diǎn)的重復(fù)內(nèi)容頁(yè)面。

robots.txt目前并不是一種標(biāo)準(zhǔn),只是一種協(xié)議!所以現(xiàn)在很多搜索引擎對(duì)robots.txt里的指令參數(shù)都有不同的看待。

二、使用robots.txt需要注意的幾點(diǎn)地方:

1、指令區(qū)分大小寫(xiě),忽略未知指令,下圖是本博客的robots.txt文件在Google管理員工具里的測(cè)試結(jié)果;

2、每一行代表一個(gè)指令,空白和隔行會(huì)被忽略;

3、“#”號(hào)后的字符參數(shù)會(huì)被忽略;

4、有獨(dú)立User-agent的規(guī)則,會(huì)排除在通配“*”User agent的規(guī)則之外;

5、可以寫(xiě)入sitemap文件的鏈接,方便搜索引擎蜘蛛爬行整站內(nèi)容。

6、盡量少用Allow指令,因?yàn)椴煌乃阉饕鎸?duì)不同位置的Allow指令會(huì)有不同看待。

三、Wordpress的robots.txt優(yōu)化設(shè)置

1、User-agent: *

一般博客的robots.txt指令設(shè)置都是面對(duì)所有spider程序,用通配符“*”即可。如果有獨(dú)立User-agent的指令規(guī)則,盡量放在通配“*”User agent規(guī)則的上方。

2、Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

屏蔽spider捉取程序文件,同時(shí)也節(jié)約了搜索引擎蜘蛛資源。

3、Disallow: /*/trackback

每個(gè)默認(rèn)的文章頁(yè)面代碼里,都有一段trackback的鏈接,如果不屏蔽讓蜘蛛去捉取,網(wǎng)站會(huì)出現(xiàn)重復(fù)頁(yè)面內(nèi)容問(wèn)題。

4、Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

頭部代碼里的feed鏈接主要是提示瀏覽器用戶(hù)可以訂閱本站,而一般的站點(diǎn)都有RSS輸出和網(wǎng)站地圖,故屏蔽搜索引擎捉取這些鏈接,節(jié)約蜘蛛資源。

5、Disallow: /?s=*

Disallow: /*/?s=*

這個(gè)就不用解釋了,屏蔽捉取站內(nèi)搜索結(jié)果。站內(nèi)沒(méi)出現(xiàn)這些鏈接不代表站外沒(méi)有,如果收錄了會(huì)造成和TAG等頁(yè)面的內(nèi)容相近。

6、Disallow: /?r=*

屏蔽留言鏈接插件留下的變形留言鏈接。(沒(méi)安裝相關(guān)插件當(dāng)然不用這條指令)

7、Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

屏蔽捉取任何圖片文件,在這里主要是想節(jié)約點(diǎn)寬帶,不同的網(wǎng)站管理員可以按照喜好和需要設(shè)置這幾條指令。

8、Disallow: /?p=*

屏蔽捉取短鏈接。默認(rèn)頭部里的短鏈接,百度等搜索引擎蜘蛛會(huì)試圖捉取,雖然最終短鏈接會(huì)301重定向到固定鏈接,但這樣依然造成蜘蛛資源的浪費(fèi)。

9、Disallow: /*/comment-page-*

Disallow: /*?replytocom*

屏蔽捉取留言信息鏈接。一般不會(huì)收錄到這樣的鏈接,但為了節(jié)約蜘蛛資源,也屏蔽之。

10、Disallow: /a/date/

Disallow: /a/author/

Disallow: /a/category/

Disallow: /?p=*&preview=true

Disallow: /?page_id=*&preview=true

Disallow: /wp-login.php

屏蔽其他的一些形形色色的鏈接,避免造成重復(fù)內(nèi)容和隱私問(wèn)題。

10、Sitemap:http://***.com/sitemap.txt

網(wǎng)站地圖地址指令,主流是txt和xml格式。告訴搜索引擎網(wǎng)站地圖地址,方便搜索引擎捉取全站內(nèi)容,當(dāng)然你可以設(shè)置多個(gè)地圖地址。要注意的就是Sitemap的S要用大寫(xiě),地圖地址也要用絕對(duì)地址。

上面的這些Disallow指令都不是強(qiáng)制要求的,可以按需寫(xiě)入。也建議站點(diǎn)開(kāi)通谷歌管理員工具,檢查站點(diǎn)的robots.txt是否規(guī)范。

好了,以上就是對(duì)利用robots.txt對(duì)wordpress博客進(jìn)行優(yōu)化的詳細(xì)內(nèi)容,希望可以幫助和我一樣剛接觸wordpress博客的同學(xué)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
robots.txt標(biāo)簽

相關(guān)文章

  • 看完秒懂robots.txt寫(xiě)法和注意事項(xiàng)

    robots.txt直接放在網(wǎng)站根目錄下,是蜘蛛訪(fǎng)問(wèn)網(wǎng)站時(shí),第一個(gè)抓取的文件。robots.txt是告訴蜘蛛網(wǎng)站的哪些文件允許抓取,哪些文件不允許抓取,甚至可以指定特定的蜘蛛能不能抓取特定的文件。沒(méi)有抓取就沒(méi)有收錄,沒(méi)有收錄就沒(méi)有排名。所以作為第一蜘蛛訪(fǎng)問(wèn)的文件,寫(xiě)好robots.txt是很重要的。

  • 了解robots文件,主動(dòng)告訴搜索引擎該抓取什么內(nèi)容

    導(dǎo)讀:首先我們要了解什么是robots文件,比如,在安徽人才庫(kù)的首頁(yè)網(wǎng)址后面加入“/robots.txt”,即可打開(kāi)該網(wǎng)站的robots文件,如圖所示,文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁(yè)希望被抓取,哪些不希望被抓取。因?yàn)榫W(wǎng)站中有一些無(wú)關(guān)緊要的網(wǎng)頁(yè),如“給我留言”或“聯(lián)系方式”等網(wǎng)頁(yè),他們并不參

  • robots.txt禁止搜索引擎收錄的方法

    什么是robots.txt文件?搜索引擎使用spider程序自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。spider在訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做robots.txt的純文本文件,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)robots.txt,

  • robots.txt寫(xiě)法大全和robots.txt語(yǔ)法的作用

    1如果允許所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的所有部分的話(huà)我們可以建立一個(gè)空白的文本文檔,命名為robots.txt放在網(wǎng)站的根目錄下即可。robots.txt寫(xiě)法如下:User-agent:*Disallow:或者User-agent:*Allow:/2如果我們禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的所有部分的話(huà)robots

    標(biāo)簽:
    robots.txt標(biāo)簽
  • 利用robots.txt找敏感文件教程

    robots.txt是一個(gè)協(xié)議,而不是一個(gè)命令。robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。當(dāng)一個(gè)搜索蜘蛛訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該

    標(biāo)簽:
    robots.txt標(biāo)簽

熱門(mén)排行

信息推薦