當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

「案例解讀」解決網(wǎng)站不收錄的必備思路

 2019-03-11 16:02  來源: A5專欄   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

網(wǎng)站不收錄可謂說是老生常談了,太多SEO從業(yè)者有遇到這樣的問題而無從下手,導(dǎo)致苦惱萬分。我們解決網(wǎng)站不收錄的問題前,應(yīng)該思考一個(gè)問題:“讓網(wǎng)站收錄的影響因素都有哪些呢?”,先弄明白這件事情,然后再去解決收錄的問題就會變得很有頭緒。

下面我以一個(gè)案例的形式針對性的描述下如果一步一步解決網(wǎng)站不收錄。

我在剛加入環(huán)球網(wǎng)校的時(shí)候,他們的網(wǎng)站已經(jīng)將近1年的時(shí)間在百度的收錄少之又少。在我去應(yīng)聘的時(shí)候,CEO知道我在SEO方面有些能力,就令我盡快解決網(wǎng)站不收錄的問題。

首先,我只是聽到公司的人和我說這個(gè)網(wǎng)站不收錄,那到底是哪里不收錄、怎么不收錄我完全不清楚,所以我開始了數(shù)據(jù)整理和問題排查的工作。

將網(wǎng)站按照類型做分類,分為了頻道頁、列表頁、專題頁、聚合頁以及新聞頁5類。然后核技術(shù)溝通將這5類URL全部導(dǎo)出給我(新聞頁,由于很多考試相關(guān)的新聞具有時(shí)效性,所以我只導(dǎo)出了30天的數(shù)據(jù)),然后我按照不同的分類開始收錄查詢工作。最后收錄查詢的結(jié)果如下:

如上圖,我發(fā)現(xiàn)公司人員和我反饋的網(wǎng)站不收錄,具體的問題是在新聞頁。而環(huán)球網(wǎng)校的新聞是面向考試的信息發(fā)布、資料發(fā)布等。是具有一定時(shí)效性的文章,按理說這么大的網(wǎng)站應(yīng)該秒收才對。

于是,我和相關(guān)人員要了網(wǎng)站最近7天的網(wǎng)站日志,技術(shù)給我的是原始的網(wǎng)站日志,既包含了爬蟲數(shù)據(jù)也包含了用戶數(shù)據(jù)等等,沒辦法,只能自己清洗一下這些數(shù)據(jù)了。

SEO清洗網(wǎng)站爬蟲日志的流程

1、我先按照user-agent包含baiduspider的進(jìn)行過濾,只保留包含baiduspider的數(shù)據(jù),這樣我就擁有了百度爬蟲的數(shù)據(jù);

2、但百度爬蟲數(shù)據(jù)中,也有很多假爬蟲,按照ip反查的思路,我先把所有baiduspider的ip地址拿下來,然后去重;

3、得到600多個(gè)不重復(fù)的唯一ip地址。我對這些ip地址通過程序批量識別真假爬蟲,最后是真爬蟲的ip地址有82個(gè);

4、我再在第一步的所有爬蟲數(shù)據(jù)中進(jìn)行過濾,只保留ip地址為真的百度爬蟲的這82個(gè)。最后得到的數(shù)據(jù)就是真的爬蟲數(shù)據(jù)了;

5、我將最近7天內(nèi)發(fā)布的url在這個(gè)清洗后的日志中進(jìn)行查詢,最后發(fā)現(xiàn)所有的新頁面在發(fā)布后的1分鐘內(nèi)爬蟲都有抓取,可想抓取是多么的及時(shí),并且在第二天、第三天都還會有對這篇文章的抓取。

最終我看到爬蟲抓取的行為數(shù)據(jù)表現(xiàn)很好,應(yīng)該不是抓取上出了問題。

然而,在我分析日志之前,也和技術(shù)、產(chǎn)品、運(yùn)維同步了一個(gè)需求,我需要1年前網(wǎng)站突然開始不收錄那個(gè)大概時(shí)間節(jié)點(diǎn)他們各部門都做了什么改動。就在我分析完日志的晚上,技術(shù)老大找到我說,他想起來當(dāng)年是因?yàn)榫W(wǎng)站被攻擊,大量注入了很多的垃圾數(shù)據(jù)后,網(wǎng)站收錄才出現(xiàn)異常的。

我可能知道問題就出在這里,但為了更全面的考究問題,我還是讓他們按規(guī)定把之前做的一些改動同步給我。

第二天早上我就開始圍繞網(wǎng)站被攻擊的問題與技術(shù)進(jìn)行了徹底的排查,看網(wǎng)站之前被注入的垃圾信息有沒有清除干凈。最后確認(rèn)垃圾信息早就徹底清除了,且正確返回了404狀態(tài)碼和404錯(cuò)誤頁面。

然后我懷疑是不是百度沒有修正我們的狀態(tài),被攻擊的時(shí)候開始不收錄正常,畢竟檢測到了我們網(wǎng)站的風(fēng)險(xiǎn),那時(shí)隔一年還是如此,一定是百度的問題。我通過百度的反饋中心詳細(xì)的說明了問題的始末,然后百度的技術(shù)也在一直排查,我等了有一周時(shí)間沒見回復(fù),其他部門也把之前的一些調(diào)整和改動都給我了,我也確認(rèn)那時(shí)大家的做法沒有問題。

于是,我主動聯(lián)系了百度站長平臺的朋友,希望他們能夠盡快處理,查明問題。

可最后我得到的結(jié)論是百度也沒發(fā)現(xiàn)什么問題,據(jù)說幾個(gè)部門的技術(shù)針對我的問題還各自篩查一遍,沒找到問題。好吧,百度的兄弟已經(jīng)給足了面子,能這么幫咱跟進(jìn)需求很到位了。還是靠自己,這畢竟是我入職CEO的第一個(gè)托付,一定要搞定。

我也找了我們的編輯,詢問并且檢查文章本身的質(zhì)量問題,大家和幾年前一樣,一直按部就班的發(fā)著信息,沒什么變化。及時(shí)性、可讀性、需求滿足度都可以保證。具體是哪出了問題呢?

我思前想后,會想到問題的本質(zhì)是開始于網(wǎng)站被攻擊開始的,那如果真的是百度沒反應(yīng)過來的話,我就要讓百度重新對我的新聞頁進(jìn)行計(jì)算,以重新評估這類頁面。于是我有了對新聞頁改版的念頭。

開始與產(chǎn)品溝通,但他們忙,無奈下,我獨(dú)挑大梁,自己畫原型開干了。

通過對頁面的重新設(shè)計(jì)、豐富了內(nèi)鏈的鏈接策略,也增加了很多廣告自定義的場景。通過20多天的努力,新的頁面上線了。

由于網(wǎng)站每天發(fā)布的新聞很多,大約在幾百條,所以我寫了一個(gè)收錄查詢的程序,每天這個(gè)程序都會自動幫我查收錄,然后以excel附件的形式發(fā)到我的郵箱,我進(jìn)行查看。

就在新版的新聞頁上線的第4天,收錄率從之前每天的1~5個(gè),突然有100多個(gè)了,收錄率之前都是零點(diǎn)零幾,現(xiàn)在有40%多了,又過一天82%,再過一天79%,又過一天85%,就這樣80%上下持續(xù)了一周的時(shí)間,到了下周突然達(dá)到了97%,而且是秒收的。然后中間也有個(gè)別的天是浮動的。但整體都在95%上下。

到這,我認(rèn)為收錄問題徹底解決了,很多編輯的同事也早就知道了這個(gè)事情。現(xiàn)在幾年過去了,我策劃的新聞頁仍在,且收錄情況一直良好。

下圖是我剛查詢環(huán)球網(wǎng)校最近一天的收錄情況:

時(shí)間上有10分鐘前、15分鐘的。由于你也想查一下的話,而且整體數(shù)量也在幾百條的數(shù)量上。

那我們來總結(jié)一下當(dāng)網(wǎng)站不收錄后的解決這個(gè)問題的思路:

1、鎖定網(wǎng)站不收錄的是哪類型的頁面,就像案例所說,最終我鎖定到了新聞頁;

2、思考網(wǎng)站不收錄的這個(gè)時(shí)間點(diǎn)內(nèi),對網(wǎng)站有改動權(quán)限的人都做了什么,這些改動會不會是網(wǎng)站不收錄的原因;

3、分析網(wǎng)站的日志,看不收錄的那個(gè)網(wǎng)站類目是不是有抓取,沒抓取就是抓取問題,有抓取就不存在問題;

4、當(dāng)網(wǎng)站改動上沒問題,抓取沒問題。就在站長工具反饋中進(jìn)行詳細(xì)的反饋;

5、反饋的同時(shí)也可以對該類型的模版頁面進(jìn)行適當(dāng)?shù)恼{(diào)整,例如增加鏈接入口、增加網(wǎng)頁豐富度,新聞頁提高原創(chuàng)比例,文章內(nèi)容的質(zhì)量程度。

6、要是還不能收錄的話,就對當(dāng)前類型的模版頁面進(jìn)行大改版,重構(gòu)頁面進(jìn)行嘗試。

我從業(yè)的公司以及幫助一個(gè)企業(yè)解決網(wǎng)站不收錄問題不下15個(gè)了,一直沿用這套思路,本文案例網(wǎng)址:(www.hqwx.com)

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦