當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

SEO案例:淺析爬蟲的不重復抓取策略

 2015-03-31 17:51  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

不重復抓取?有很多初學者可能會覺得。爬蟲不是有深度優(yōu)先和廣度優(yōu)先兩種抓取策略嗎?你這怎么又多出來一個不重復抓取策略呢?其實我這幾天有不止一次聽到了有人說要在不同頁面增加同一頁面鏈接,才能保證收錄。我想真能保證嗎?涉及收錄問題的不止是抓沒抓吧?也從而延伸出今天的這篇文章,不重復抓取策略,以說明在一定時間內(nèi)的爬蟲抓取是有這樣規(guī)則的,當然還有很多其他的規(guī)則策略,以后有機會再說,例如優(yōu)先抓取策略、網(wǎng)頁重訪策略等等。

回歸正題,不重復抓取,就需要去判斷是否重復。那么就需要記住之前的抓取行為,我們舉一個簡單的例子。你在我的QQ群(9060800)里看到我發(fā)了一個URL鏈接,然后你是先看到了我發(fā)的這個鏈接,然后才會點擊并在瀏覽器打開看到具體內(nèi)容。這個等于爬蟲看到了后才會進行抓取。那怎么記錄呢?我們下面看一張圖:

如上圖,假設這是一個網(wǎng)頁上所有的鏈接,當爬蟲爬取這個頁面的鏈接時就全部發(fā)現(xiàn)了。當然爬取(理解為發(fā)現(xiàn)鏈接)與抓取(理解為抓取網(wǎng)頁)是同步進行的。一個發(fā)現(xiàn)了就告訴了另外一個,然后前面的繼續(xù)爬,后面的繼續(xù)抓。抓取完了就存起來,并標記上,如上圖,我們發(fā)現(xiàn)第2條記錄和第6條記錄是重復的。那么當爬蟲抓取第二條后,又爬取到了第6條就發(fā)現(xiàn)這條信息已經(jīng)抓取過了,那么就不再抓取了。爬蟲不是盡可能抓更多的東西嗎?為什么還要判斷重復的呢?

其實,我們可以想一下?;ヂ?lián)網(wǎng)有多少網(wǎng)站又有多少網(wǎng)頁呢?趙彥剛是真沒查證過,但這個量級應該大的驚人了。而本身搜索引擎的爬取和抓取都是需要執(zhí)行一段代碼或一個函數(shù)。執(zhí)行一次就代表著要耗費一丁點資源。如果抓取的重復量級達到百億級別又會讓爬蟲做多少的無用功?耗費搜索引擎多大的成本?這成本就是錢,降低成本就是減少支出。當然不重復抓取不光體現(xiàn)在這里,但這個是最顯而易見的。你要知道的就是類似于內(nèi)容詳情頁的熱門推薦、相關文章、隨機推薦、最新文章的重復度有多大?是不是所有頁面都一樣?如果都一樣,那么可以適當調(diào)整下,在不影響網(wǎng)站本身的用戶體驗前提下,去適當做一些調(diào)整。畢竟網(wǎng)站是給用戶看的,搜索引擎只是獲取流量的一個重要入口,一種營銷較為重要的途徑!

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

  • 個人做網(wǎng)站,一年可以賺多少錢?聊賣站

    今天,有一些圈外的朋友來咨詢我做網(wǎng)站變現(xiàn)的事情,問我:賀老師,我要是做一個網(wǎng)站,一年可以賺多少錢?我用2張圖片,來解答這個問題:做一個網(wǎng)站,一年可以賺多少錢?取決于如何做這個站點,能把它帶到什么樣的地步!有人半年可以賺24個W,但是也有人,一年只賺2000塊:是什么問題,導致了如此懸殊的一個差距呢?

  • 微信問一問是什么,有什么優(yōu)勢、怎么結(jié)合搜一搜SEO做排名引流?

    前言:這是白楊SEO原創(chuàng)第457篇。為什么想到寫這個?因為兩個月前微信剛上線內(nèi)測我就發(fā)了一個問一問視頻,現(xiàn)在基本算全開放了,所以想讓做SEO,流量,甚至想玩普通人都知道這個新渠道,希望對大家做品宣和搞流量有幫助。文章大綱:1、微信問一問是什么?入口在哪?2、做微信問一問有什么好處?3、微信問一問怎么

    標簽:
    seo優(yōu)化
  • 企業(yè)做SEO優(yōu)化的重要性和意義?網(wǎng)站為何要做優(yōu)化?

    很多大小型企業(yè)都有自己的網(wǎng)站,那么企業(yè)做網(wǎng)站是干嘛呢?有什么作用?我的理解是,您首先是希望為了能夠在百度、360、搜狗等搜索引擎中得到展現(xiàn),讓更多的用戶通過網(wǎng)上搜索看到公司企業(yè)正在做什么,企業(yè)形象背景以及口碑如何,最終目的是為了營銷,為了推廣我們的品牌,讓更多的需求客戶通過網(wǎng)絡,通過百度、360等搜

  • 如何用人工智能創(chuàng)作結(jié)合SEO以知乎為例獲取百度搜索流量?

    使用大致流程如下:1、確定自己業(yè)務的主要關鍵詞2、確定想要的流量(百度搜索來的還是知乎站內(nèi))3、確定自己想用知乎文章為主還是問答為主4、挖掘用戶需求的關鍵詞5、用ChatGPT或平替產(chǎn)品生成文字內(nèi)容6、生成的內(nèi)容優(yōu)化修改,用來寫文章或者做回答7、布局SEO的用戶需求關鍵詞在標題和內(nèi)容里8、置入引流信

    標簽:
    seo優(yōu)化
  • 最接地氣的SEO指南 讓新入行的你少走一大段彎路

    老賀是2005年開始做網(wǎng)站的,那時候我們國內(nèi)的網(wǎng)站并不多,但是每天分享知識的人卻不少,整天混跡在A5站長網(wǎng)、站長之家、落伍者上面,不斷的充實自己,不過信息良莠不齊,也走了很多的彎路。之后在實踐、實戰(zhàn)中有了技能,在2008年的時候,老賀開始對外搞SEO,就這樣一晃十多年過去了。今天這篇文章,老賀只寫一

熱門排行

信息推薦