武漢seo今天想聊聊搜索引擎的蜘蛛的工作方式。先說說搜索引擎的原理吧。搜索引擎是把互聯(lián)網(wǎng)上的網(wǎng)頁內(nèi)容存在自己的服務(wù)器上,當(dāng)用戶搜索某個(gè)詞的時(shí)候,搜索引擎就會在自己的服務(wù)器上找相關(guān)的內(nèi)容,這樣就是說,只有保存在搜索引擎服務(wù)器上的網(wǎng)頁才會被搜索到。哪些網(wǎng)頁才能被保存到搜索引擎的服務(wù)器上呢?只有搜索引擎的網(wǎng)頁抓取程序抓到的網(wǎng)頁才會保存到搜索引擎的服務(wù)器上,這個(gè)網(wǎng)頁抓取程序就是搜索引擎的蜘蛛.整個(gè)過程分為爬行和抓取。
一、 蜘蛛
搜索引擎用來爬行和訪問網(wǎng)站頁面的程序被稱為蜘蛛,也可稱之為機(jī)器人。蜘蛛訪問瀏覽器,就和我們平時(shí)上網(wǎng)一個(gè)樣子,蜘蛛同樣會申請?jiān)L問,得到允許后才可以瀏覽,可是有一點(diǎn),搜索引擎為了提高質(zhì)量和速度,它會放很多蜘蛛一起去爬行和抓取。
蜘蛛訪問任何一個(gè)網(wǎng)站時(shí),都會先去訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。
和瀏覽器一樣,搜索引擎蜘蛛也有表明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。
二、 跟蹤鏈接
為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個(gè)頁面爬到下一個(gè)頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣。
整個(gè)互聯(lián)網(wǎng)是有相互鏈接的網(wǎng)站及頁面組成的。當(dāng)然,由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜,蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。
最簡單的爬行的策略有:深度優(yōu)先和廣度優(yōu)先。
1、 深度鏈接
深度優(yōu)先指當(dāng)蜘蛛發(fā)現(xiàn)一個(gè)鏈接時(shí),它就會順著這個(gè)鏈接指出的路一直向前爬行,直到前面再也沒其他鏈接,這時(shí)就會返回第一個(gè)頁面,然后會繼續(xù)鏈接再一直往前爬行。
2、 廣度鏈接
從seo角度講鏈接廣度優(yōu)先的意思是講的蜘蛛在一個(gè)頁面發(fā)現(xiàn)多個(gè)鏈接的時(shí)候,不是跟著一個(gè)鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。
從理論上說,無論是深度優(yōu)先還是廣度優(yōu)先,只要給蜘蛛足夠的時(shí)間,都能爬完整個(gè)互聯(lián)網(wǎng)。在實(shí)際工作中,沒有什么東西是無限的,蜘蛛的帶寬資源和蜘蛛的時(shí)間也是一樣都是有限的,也不可能爬完所有頁面。實(shí)際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。
3.吸引蜘蛛
蜘蛛式不可能抓取所有的頁面的,它只會抓取重要的頁面,那么哪些頁面被認(rèn)為比較重要呢?有以下幾點(diǎn):
(1) 網(wǎng)站和頁面權(quán)重
(2) 頁面更新度
(3) 導(dǎo)入鏈接
(4) 與首頁點(diǎn)擊距離
4.地址庫
搜索引擎會建立一個(gè)地址庫,這么做可以很好的避免出現(xiàn)過多抓取或者反復(fù)抓取的現(xiàn)象,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。
地址庫中的URL有以下幾個(gè)來源:
(1) 人工錄入的種子網(wǎng)站。
(2) 蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)進(jìn)行對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。
(3) 搜索引擎自帶的一種表格提供站長,方便站長提交網(wǎng)址
講到這里,關(guān)于搜索引擎已經(jīng)差不多了,雖然對于真正的搜索引擎技術(shù)來說只是一皮毛,不過對于SEO人員已經(jīng)夠用了。原文地址: 這是億盾武漢seo培訓(xùn)學(xué)員博客的第二篇文章,了解了這么多之后是不是更有利于我們對自己網(wǎng)站的優(yōu)化了捏!
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!