當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

大拿分享:如何避免大量重復(fù)URL被百度收錄

 2015-07-01 16:27  來源: 百度站長平臺   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

很多同學(xué)會有這樣的疑惑,索引量工具顯示索引量數(shù)值很高但流量總也上不去,也沒有發(fā)現(xiàn)我們站內(nèi)有低質(zhì)內(nèi)容,百度這是要鬧哪樣?6月中旬,藝龍SEO負(fù)責(zé)人劉明給我推薦了他寫的文章《如何避免大量URL重復(fù)收錄》,找到了索引量高流量低的一個(gè)原因并給出的解決方案。另外,如果各位同學(xué)還有工作經(jīng)驗(yàn)等內(nèi)容想分享、或者對已有內(nèi)容持相反意見者,歡迎給站長學(xué)院投稿。

首先聲明,我們只談?wù)撚袡z索意義的URL,也就是用戶會從搜索引擎查找的頁面。其他頁面按照常用的方法做屏蔽就好了。鑒于很多站長都愛討論整體的收錄量,我必須潑一下冷水,也許你的有效收錄是1/10。

URL參數(shù)

也叫URL query,是一個(gè)最復(fù)雜,最容易被忽視,最容易被妥協(xié)的問題。他是網(wǎng)站運(yùn)營中必不可少的元素,如果簡單的去除,其他部門就無法工作了。 靜態(tài)化是的話題,URL參數(shù)經(jīng)常被用于以下幾方面:

同一個(gè)實(shí)體的不同狀態(tài)展示,比如同一個(gè)酒店,在不同時(shí)間點(diǎn)會有不同的房間庫存:

為了統(tǒng)計(jì)不同渠道的流量:

為了統(tǒng)計(jì)不同渠道,具體模塊的點(diǎn)擊量:

調(diào)試:

全世界最奇葩的是亞馬遜,居然把統(tǒng)計(jì)參數(shù)放到了路徑中

出現(xiàn)這種問題的壞處有幾點(diǎn):

1. 浪費(fèi)搜索引擎對你網(wǎng)站的各項(xiàng)配額,從而影響其他正常的頁面。

2. 丟失很多本應(yīng)拿到的鏈接加分,站外渠道的鏈接往往是最優(yōu)質(zhì)的。同一個(gè)URL的分值可能分散成幾十份。

3. SEO的流量被統(tǒng)計(jì)到別的渠道(因?yàn)閠racking字段寫的是別的渠道,而且被收錄被點(diǎn)擊)

4. 往往形成一種局面,產(chǎn)品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期開發(fā)和維護(hù)的成本極高。

為了解決這個(gè)問題,首先要弄清URL的定義。以我的理解,每一個(gè)URL是一個(gè)靜態(tài)的、獨(dú)立不重復(fù)的、有意義的實(shí)體,一般也有檢索意義(就是有人會搜)。比如一個(gè)人、一輛車、一條道路、一個(gè)零件。而不能混入各種"狀態(tài)",比如這個(gè)人生病的時(shí)候,難道就不是他自己了么? 一件商品在促銷的狀態(tài)難道是另一件商品了么?

理論上canonical標(biāo)簽就可以解決這個(gè)問題了, 但是從實(shí)際測試結(jié)果看,百度對這個(gè)標(biāo)簽的支持優(yōu)先級非常低, 幾乎可以忽略不計(jì)。那么我的解決方案是這樣的:

1. 建立好網(wǎng)站的思維導(dǎo)圖和元信息。 (可參考:SEO健康度 )

2. 所有和SEO元信息相關(guān)的參數(shù)都放到路徑中去

3. 所有和SEO元信息不相干的參數(shù)都放到#后邊,因?yàn)?后邊不影響web服務(wù)器返回的內(nèi)容。簡單的說就是用"#"替代"?"。

4. 每個(gè)頁面中都利用js獲取#后邊的參數(shù)對,通過二次請求發(fā)回給統(tǒng)計(jì)服務(wù)器

5. 如果#后邊的參數(shù)影響頁面內(nèi)容,比如酒店的入住日期。那么這部分內(nèi)容用ajax加載就行,他是不穩(wěn)定的,不屬于頁面內(nèi)容的一部分。(當(dāng)然還有變通的辦法,暫不贅述。)

6. 原始的#錨點(diǎn)定義肯定會沖突,定義一個(gè)#后邊的變量,并用js控制屏幕滾動(dòng),來保證原始錨點(diǎn)的作用。

有人可能會想到,根據(jù)ua判斷,如果是搜索引擎爬蟲,就用跳轉(zhuǎn)的方式去掉URL參數(shù)。但效率最高的方法必然是從一開始就不展示錯(cuò)誤URL。那么前面的例子優(yōu)化后就變成了:

其實(shí)很多網(wǎng)站早就使用這種方式了,但是還有很多網(wǎng)站由于開發(fā)效率無法及時(shí)實(shí)現(xiàn)。所以對于一般的小網(wǎng)站,一定要考慮開發(fā)成本,不要輕易冒進(jìn)。只要能避免問題的發(fā)生,變通的方法是很多的。

路徑中使用非必要元素

很多網(wǎng)站仿照亞馬遜的做法,把商品名體現(xiàn)在URL中,然后再通過id來決定頁面展示的內(nèi)容:博集典藏館043•*山伯爵-亞歷山大•仲馬/dp/B005TZHJEQ/

這樣雖然可以提高一些相關(guān)性,但是很危險(xiǎn)。在長期甚至短期的時(shí)間內(nèi),大量商品的名稱是非常可能有變化的,那么URL也就跟著變化。成本也是非常高的,因?yàn)榧哟罅思夹g(shù)實(shí)現(xiàn)難度,不管從站內(nèi)還是站外,每次增加鏈接都是一個(gè)很麻煩的事情。

在我接手藝龍SEO之前,URL被全部改成了這樣,對我早期的工作造成了非常巨大的負(fù)擔(dān):

通過日志分析發(fā)現(xiàn)基本所有的百度蜘蛛發(fā)起的請求都被301跳轉(zhuǎn)了一次(日志分析方法可參考SEO健康度 )。細(xì)致調(diào)查后發(fā)現(xiàn),從SEO拼接規(guī)則到后臺的漢字和翻譯數(shù)據(jù)被一直修改。也就是說,這個(gè)URL相關(guān)的元素有:

1. 中文 (非必要元素)

2. 由中文翻譯的英文 (非必要元素)

3. id (必要元素)

而當(dāng)時(shí)負(fù)責(zé)SEO的同事把英文和id拼接在了URL中,那么這樣一個(gè)URL先后變成過:

跟"相關(guān)性"比,URL的唯一性和穩(wěn)定性更重要。所以針對這個(gè)問題,URL的最佳策略應(yīng)該是:

如果這個(gè)id是隸屬于一個(gè)分類下的,比如城市,那么就可以是:

從技術(shù)角度說, id一般是數(shù)據(jù)庫的primary key,可以是數(shù)字也可以是字符串,那么這個(gè)時(shí)候URL是一維的; id也可以是聯(lián)合的唯一索引,那么URL就是二維的,就像上面的(bejing,123)缺一不可。電商類網(wǎng)站列表頁經(jīng)常用到三維以上。

大小寫

如果網(wǎng)站的技術(shù)架構(gòu)用的是開源系統(tǒng),一般是不會有這個(gè)問題的。如果使用了微軟的技術(shù)架構(gòu),這個(gè)問題非常常見:

我的建議是統(tǒng)一使用小寫,大寫自動(dòng)跳轉(zhuǎn)為小寫(小心301死循環(huán)!)。

目錄的規(guī)范

很多網(wǎng)站同時(shí)存在這樣的URL,無形中把收錄量擴(kuò)大了一倍:

上邊第一個(gè)路徑的意思是在product目錄下有一個(gè)123文件。第二個(gè)路徑的意思是在product目錄下有一個(gè)123目錄,這個(gè)目錄下可能有很多文件,但是他代表眾多文件中的index.html或index.php或default.aspx等優(yōu)先級最高的那個(gè)文件。為了避免歧義,我定義文件都是用".html"結(jié)尾的。

為了減少重復(fù)收錄,那么按我的習(xí)慣是:

=>

=>

總結(jié)

1. 所有部門統(tǒng)一使用SEO定義的URL,屏蔽非SEO URL的入口。

2. 用"#"替代"?"

3. 統(tǒng)一使用小寫

4. 保證目錄的規(guī)范

5. 把不規(guī)范的URL跳轉(zhuǎn)到規(guī)范的URL

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 最接地氣的SEO指南 讓新入行的你少走一大段彎路

    老賀是2005年開始做網(wǎng)站的,那時(shí)候我們國內(nèi)的網(wǎng)站并不多,但是每天分享知識的人卻不少,整天混跡在A5站長網(wǎng)、站長之家、落伍者上面,不斷的充實(shí)自己,不過信息良莠不齊,也走了很多的彎路。之后在實(shí)踐、實(shí)戰(zhàn)中有了技能,在2008年的時(shí)候,老賀開始對外搞SEO,就這樣一晃十多年過去了。今天這篇文章,老賀只寫一

  • 百度會區(qū)別對待不同域名前后綴嗎?

    我曾在另一個(gè)SEO博客中發(fā)表過一篇文章,是關(guān)于“百度是否會區(qū)別對待不同域名后綴”的文章,在文章中我提出了一個(gè)觀點(diǎn),明確指出“百度不會區(qū)別對待不同后綴的域名”,每一種后綴的域名享有同等待遇。

    標(biāo)簽:
    百度seo
  • 談?wù)勅W(wǎng)SEO矩陣是什么?一般怎么做?【舉例】

    大家好,我是白楊SEO,專注SEO十年,SEO流量實(shí)戰(zhàn)派,企業(yè)流量增長顧問。擅長研究各平臺自然搜索流量玩法。曾帶一個(gè)PCB項(xiàng)目,從0-1,現(xiàn)該項(xiàng)目年?duì)I收10億+。曾靠一篇文章引流精準(zhǔn)粉絲1000+,變現(xiàn)3萬+。個(gè)人原創(chuàng)公眾號:白楊SEO。一年不到,關(guān)注人數(shù)從0到5000+,目前關(guān)注25000+。

  • 手把手教您如何批量查詢網(wǎng)站百度收錄數(shù)

    對于站長來說,每天檢查網(wǎng)站在百度的收錄數(shù)目變成了一個(gè)日常工作,但是隨著網(wǎng)站數(shù)目的增加,每次單個(gè)去查詢網(wǎng)站收錄數(shù)會變得比較麻煩那么有沒一款好用并且免費(fèi)的工具可以幫助我們做到這些呢?答案是肯定的!下面我將會告訴大家如何批量查詢網(wǎng)站百度收錄數(shù):

    標(biāo)簽:
    工具軟件
    百度收錄
  • 百度正在暴力截流SEO還有用嗎

    百度的核心流量階層基本已經(jīng)固化,新的站點(diǎn)很難會有太多的流動(dòng)機(jī)會,這個(gè)時(shí)候就需要去豐富流量的來源類型,避免把雞蛋都裝在一個(gè)籃子里。比如下面這個(gè)站點(diǎn),谷歌和必應(yīng)的流量占比都在不斷的上漲中,這也是平臺向內(nèi)容生產(chǎn)者釋放出的友好信號,是值得去重點(diǎn)拓展維護(hù)的。

    標(biāo)簽:
    百度seo

熱門排行

信息推薦