當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

如何獲得得百度蜘蛛、谷歌機器人和雅虎爬蟲的關(guān)注

 2011-07-20 00:59  來源:   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

蜘蛛、機器人和爬蟲是你的朋友。如果要進行SEO,你不只需要喜歡它們,同時你真的需要特意地把它們吸引到你的網(wǎng)站上來。

在SEO中,蜘蛛、機器人和爬蟲大體上講的是同一種東西,但是別過分擔(dān)憂—它們都沒有腿和觸角。所以,讓我們統(tǒng)一用“爬蟲(crawler)”這個詞來稱呼它們。請牢記,有時你需要吸引這些機器人,或者把你的網(wǎng)站偽裝成“蜘蛛誘餌”。這都屬于同一個原則。 那么,什是爬蟲,為什么我們要把它請到我的網(wǎng)站上來呢。 爬蟲是一種程序,或者是一段自動化的腳本(經(jīng)常被稱為 bot,即 robot的縮寫),它在網(wǎng)上不停辛勤奔跑到各個URL上去。爬蟲通過它們所瀏覽的網(wǎng)頁上面的鏈接從一個URL爬到另一個URL。

主流搜索引擎接連不斷地將它們的爬蟲派出去瀏覽廣闊的互聯(lián)網(wǎng)。爬蟲首先找到各個頁面,然后把頁面上的文本和代碼復(fù)制并儲存在它們巨大的索引服務(wù)器上,這個過程叫做爬行(spidering)。這個巨大的索引,實際上就是一個包含搜索引擎爬蟲可以成功訪問到的所有網(wǎng)站頁面的數(shù)據(jù)庫。該索引被用來作為當(dāng)你搜索時,可以非??焖俚氐玫揭粋€結(jié)果的倉庫。當(dāng)你在一個例如Google的搜索引擎上輸入一個搜索詞并提交,你 實際搜索的是搜索引擎所索引的全部內(nèi)容,而不是當(dāng)時互聯(lián)網(wǎng)的實際內(nèi)容。 當(dāng)然,網(wǎng)頁會變化。有時,網(wǎng)頁和網(wǎng)站的變化周期非常短。除此以外,新的網(wǎng)站和網(wǎng)頁隨時都在快速出現(xiàn)。這也是為什么爬蟲始終都在那里不停地爬行,一遍又一遍地瀏覽網(wǎng)頁,并且建立和更新搜索引擎的索引信息。 搜索引擎索引庫里面的內(nèi)容是爬蟲瀏覽網(wǎng)頁時看到的內(nèi)容。爬蟲所看到的內(nèi)容可能和一般的訪問者看到的大相徑庭。如果你想查看爬蟲看到的某個網(wǎng)頁的內(nèi)容是什么,你可以使用 IE瀏覽器來訪問它,然后按下Ctrl-A組合鍵,并瀏覽復(fù)制下來的內(nèi)容(如果是Mac系統(tǒng),則可以使用Apple-U組合鍵)?;蛘撸憧梢越柚?Google,點擊搜索結(jié)果下面的“網(wǎng)頁快照”鏈接,就可以看到爬蟲最近對這個頁面做的快照了。首先也是最重要的一點是,爬蟲將它們爬過的每個頁面的字和詞組合起來。它們索引文本和鏈接。當(dāng)你在搜索框中輸入一個搜索詞時,搜索引擎盡量精確地找出和搜索詞組最匹配的網(wǎng)頁。 不同的搜索引擎有它們獨具特色的爬蟲,和你所期料的一樣,它們并不是都以完全一樣的方式來運行。有些爬蟲獲取頁面上全部的內(nèi)容,而有些可能只是對其中的某些部分感興趣。大部分爬蟲都認為,頁面的標(biāo)題以及靠近頁面頂部的內(nèi)容,比遠在頁面下面的內(nèi)容更重要。爬蟲在爬行網(wǎng)站時經(jīng)常遇到障礙并越過這些障礙,比如說,在網(wǎng)站上,沒有讓它們繼續(xù)爬行的鏈接,或者它們遇到了由怪異技術(shù)或代碼造成的問題。爬蟲還可能由于遇到技術(shù)阻礙,而進入陷阱,從而使它們不能輕易完成工作。 所以,任何SEO工作的第一步的重要部分都是讓爬蟲更容易發(fā)現(xiàn)和爬行你的網(wǎng)站。如果你的網(wǎng)站沒有被爬蟲爬過,它們也就不會建立關(guān)于你網(wǎng)站的搜索引擎索引。如果網(wǎng)頁沒有在索引當(dāng)中,搜索者也不會在搜索引擎中找到它,因為搜索引擎認為那個頁面根本就不存在。與此同時,搜索者可能找到其他網(wǎng)頁,并且很有可能是你的競爭對手的網(wǎng)頁。 鏈接和精心設(shè)計的站點結(jié)構(gòu)是建立個體網(wǎng)頁、網(wǎng)站欄目與其他站內(nèi)網(wǎng)頁和欄目之間關(guān)系的橋梁。這將給爬蟲提供清晰的爬行道路。

創(chuàng)建sitemap

建立 sitemap 是幫助搜索引擎爬蟲抓取網(wǎng)站的最簡單的方法之一。sitemap是一個給爬蟲提供網(wǎng)站內(nèi)容 URL清單—至少是網(wǎng)站擁有者希望爬蟲看到的地址清單的文件(通常是 XML 格式)。 sitemap 中還可以包括針對每個URL的附加信息,例如指定頁面的最近更新時間、更新頻率,以及相對于網(wǎng)站上其他內(nèi)容的重要度(舉例來說,首頁比“聯(lián)系我們”頁面更為重要)。sitemap 所提供的信息可以幫助搜索引擎爬蟲更智能地抓取網(wǎng)站。Google、MSN、Yahoo!以及 Ask 都接受網(wǎng)站擁有者提交 sitemap 的請求。然而需要注意的是,沒有任何一家公司保證sitemap所提交的URL都會被抓取或者被索引。 sitemap 對于那些提供不容易被直接瀏覽到的信息的網(wǎng)站來說十分有用,例如有些站點存儲了大量的檔案或者信息數(shù)據(jù)庫,這些信息是通過用戶檢索才能看到的。請記住,爬蟲只是根據(jù)鏈接來抓取信息,而通常情況下,這樣的信息是缺乏鏈接指向的。

文章來源: 轉(zhuǎn)載請注明地址

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

  • 淺談百度爬蟲的HTTP狀態(tài)碼返回機制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對常見的HTTP返回碼來做相關(guān)調(diào)整,下面我們就來淺談百度爬蟲的HTTP狀態(tài)碼返回機制

    標(biāo)簽:
    https網(wǎng)站
    百度爬蟲
  • 爬蟲有哪些分類?白話說說SEO好朋友爬蟲

    本文大綱:1、爬蟲是什么?反爬蟲又是什么?2、爬蟲有哪些分類?3、爬中流程與搜索引擎工作流程4、http/https協(xié)議與狀態(tài)碼5、robots協(xié)議爬蟲是什么?反爬蟲又是什么?這里的爬蟲不是我們生活中的爬蟲,如蜘蛛。這里的爬蟲更多指的是網(wǎng)絡(luò)爬蟲,即我們叫它網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機器人。當(dāng)然,在SEO里,叫網(wǎng)

    標(biāo)簽:
    百度爬蟲
  • 百度爬蟲是什么

    百度爬蟲是一種網(wǎng)絡(luò)機器人,它可以根據(jù)一定的規(guī)則,在各個網(wǎng)站爬行,對訪問過的網(wǎng)頁、圖片、視頻等內(nèi)容進行收集整理,分類建立數(shù)據(jù)庫,呈現(xiàn)在搜索引擎上,讓用戶通過搜索某些關(guān)鍵字,就可以看到企業(yè)網(wǎng)站的網(wǎng)頁、圖片、視頻等。

    標(biāo)簽:
    百度爬蟲
  • 百度蜘蛛爬蟲的工作原理

    百度是中國目前的第一大搜索引擎,擁有完善的一套爬蟲算法,了解百度蜘蛛的爬蟲原理,對我們SEO優(yōu)化工作有著舉足輕重的作用。我們可以從下面這張圖片來詳細了解百度蜘蛛爬取網(wǎng)頁的一整套流程和體系

  • 影響百度爬蟲對網(wǎng)站抓取量的因素

    影響百度爬蟲對網(wǎng)站抓取量的因素有哪些?

    標(biāo)簽:
    爬蟲
    百度爬蟲

熱門排行

信息推薦