1、簡介
搜索引擎的排名主要取決于以下因素:
內(nèi)容相關(guān)度(百度搜索大概占比<40%)
用戶行為(用戶點(diǎn)擊數(shù)、跳出、瀏覽時(shí)長等等,占比未知 )
網(wǎng)站技術(shù)參數(shù)(是否有g(shù)zip、nofollow、alt 以及各類標(biāo)簽是否正確使用等等,占比應(yīng)該較?。?/p>
域名積累(包括域名年齡、外鏈、歷史流量等,占比應(yīng)較大)
2、優(yōu)化思路
本質(zhì)上排名的優(yōu)化是一種競爭。和該關(guān)鍵詞搜索結(jié)果中的其他網(wǎng)站競爭。
競爭的點(diǎn)無非就是 前面提到的這4大點(diǎn)。而其中相對來說比較好把控的也只有內(nèi)容相關(guān)度以及網(wǎng)站技術(shù)參數(shù)了。
其他的需要長時(shí)間的優(yōu)化和積累才能達(dá)到。
3、如何優(yōu)化
如何優(yōu)化內(nèi)容相關(guān)度呢?
這就需要知道搜索引擎是如何評判內(nèi)容與搜索詞的相關(guān)度了。
查了些資料,得知目前主流的相關(guān)度算法主要有 TF-IDF 、BM25 等。
TF-IDF 介紹
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency)。
而BM25 則是針對TF-IDF 的收斂性改進(jìn),增加了k,b參數(shù),使得詞頻的影響達(dá)到一定量級后趨于收斂。
簡單解釋一下,關(guān)鍵詞的優(yōu)化其實(shí)就是 增減和搜索詞有關(guān)的詞語在整個(gè)內(nèi)容中的數(shù)量!
只是要弄清楚應(yīng)該增減什么詞,增減的范圍又是多少!
參考搜索詞目前的排名,并且分析排名靠前網(wǎng)站的詞語布局
比如提高“深圳租房”這個(gè)搜索詞你的網(wǎng)站排名,那么從關(guān)鍵詞優(yōu)化的角度,第一步是要了解這個(gè)搜索詞目前的排名是怎樣的,排名靠前的網(wǎng)站,對于關(guān)鍵詞又是怎么布局的。
當(dāng)然去人工的一個(gè)個(gè)分析,工作量實(shí)在太大了,所以我自己做了一個(gè)分析工具,抓取目標(biāo)搜索詞的結(jié)果,然后分析各自的關(guān)鍵詞布局。
橫向?qū)Ρ龋敿?xì)地分析出具體可操作的方案
后面發(fā)現(xiàn)以上還不夠,這樣對比起來還是工作量大,所以又開發(fā)了預(yù)測功能,直接將搜索詞和你自己的html源碼輸入進(jìn)來,然后預(yù)測,系統(tǒng)給出直觀的優(yōu)化操作方案。
后續(xù)還規(guī)劃了一個(gè)預(yù)測功能,就是將海量去分析各種搜索詞,將結(jié)果保存下來, 然后用機(jī)器學(xué)習(xí)算法去分類,能夠進(jìn)一步得知這些特征的重要性排序,然后從高到低根據(jù)重要程度去優(yōu)化。但是本人太懶了,這步目前還沒有時(shí)間去弄,估計(jì)過年期間再寫一寫吧。
因?yàn)樗阉饕娴木唧w算法,對我們來說就是個(gè)黑盒子,不知道里面會(huì)根據(jù)具體哪些特征去評分,所以我的思路就是將目前我們能手工提取到的特征,比如說 詞的密度,內(nèi)容的篇幅,相關(guān)詞的密度等等,當(dāng)然還有標(biāo)簽:排名值,放進(jìn)機(jī)器學(xué)習(xí)算法里跑一跑,這樣當(dāng)曲線擬合,召回率到一定程度的時(shí)候,就可以大概預(yù)測出你的網(wǎng)站當(dāng)前的內(nèi)容 能排多少名了。
具體算法我也還在思考,目前覺得應(yīng)該以可解釋性為主,比如隨機(jī)森林,決策樹一類的,這樣能夠知道特征之間的重要程度,如果純粹只是要輸出個(gè)排名預(yù)測結(jié)果,用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)一類的算法也成。
文章來源:公眾號 SEO實(shí)戰(zhàn)營(D: ilottecn)
鏈接:https://mp.weixin.qq.com/s/s4s5Cfq0Q3DF7ISmze3HUg
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!