NEWS

新聞資訊

時刻保持對數字市場的敏銳及前瞻性

公司網絡推廣:曼朗介紹搜索引擎優化SEO算法之TF-IDF算法

曼朗 | 2015-07-21 | 分享至:

  一、TF-IDF算法是什么意思

  搜索引擎對于頁面權重的計算有很多的算法,其中就有一項十分著名的算法,英文簡稱是TF-IDF。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。含義如下:

  TF:詞頻

  IDF:逆文本頻率指數

  TF-IDF=TF*IDF

  可能大家對這個名詞比較陌生,但是,了解seo的朋友應該聽說過關鍵詞密度吧,TF詞頻的就是大家所熟知的關鍵詞密度。TF用來判斷一個頁面的相關度。頁面的相關性對于網站的排名影響很大,同一個關鍵詞下,相關性越高的網頁,百度會覺得它越重要,從而給與這個網頁更好的排名。但是,千萬不要為了提高關鍵詞密度而在網頁中疊加關鍵詞哦,如果一旦被百度識別,就會受到懲罰。

  二、TF-IDF算法如何實現的

  TF為詞頻的意思,是指一個詞出現在頁面中的次數,如果一篇文章的總詞語數是200,而“網站優化”這個詞出現了4次,那么“網站優化”這個詞頻TF=4/200,也就是0.02。一般來說,這個詞頻(關鍵詞密度)越高,代表頁面越相關。

  而IDF為逆文本頻率指數,聽起來有點晦澀難懂,不要緊,我舉例說明下。假設“網站優化”在N(2000)個頁面出現,總文件數為M(1億),那么文件頻率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗的來說,就是包含“網站優化”這個詞的網頁總數越多,這個詞就變得越不重要。

  一個網頁是很多的關鍵詞的集合,搜索引擎并不會給所有的詞加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權重其實應該是0。然后再分別計算其中包含的關鍵詞權重。

  三、TF-IDF算法的具體應用

  其實在搜索引擎檢索中,計算權重的時候,會根據每個詞分詞來計算,例如:“SEO網站優化的網站建設公司”這個詞。

  假設:“SEO”頁面檢索數位2000萬,“網站優化”的檢索數為1000萬,“技巧”的檢索數為50000萬

  搜索引擎索引總數假設為100億。

  某個網頁去除“的、是、中、地、得”停止詞后,總共被百度切分為400個詞。”seo”出現8次,”網站優化”出現10次,”網站建設公司”出現16次。

  那么它們各自的詞頻:

  TF(SEO)=8/400=0.02,

  TF(網站優化)=10/400=0.025

  TF(網站建設公司)=20/400=0.04

  那么搜索“SEO網站優化的網站建設公司”這個頁面的相關度為:

  TF(總)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(網站優化)= LOG(10000000000/10000000)=3

  IDF(網站建設公司)=log(10000000000/100000000)=1.69897

  這么算下來之后,每個詞為搜索“SEO網站優化的網站建設公司”為頁面的權重和相關度貢獻的值分別為:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(網站優化)=0.025*3=0.075

  Tf-idf(網站建設公司)=0.04*1.69897=0.0679588

  由此可以看出,雖然技巧出現的頻率更高,但識別度沒有SEO和網站優化高,所以為頁面的權重貢獻度并不是太大。一個詞的預測能力也就是識別度越高,那么這個詞的權重越大,反之則越小,看到“網站優化“可能你就已經基本了解這個頁面要講什么,但是看到網站建設公司,你可能還不是太明白頁面的主題。 當然TF-IDF算法只是搜索引擎的算法的一個點,另外比如頁面標簽的使用例如H標簽,搜索引擎糾錯算法,外鏈內鏈接的投票,頁面相似度,url路徑層次等等也是很重要的點,以后相繼會提到。

本文標簽: 公司網絡推廣

互聯網營銷診斷 /根據您市場目標提供相應的營銷診斷書

重庆时时彩开奖结果 qq分分彩开奖记录官网 qq分分彩和腾讯分分彩计算方法 卖银镯子不赚钱 江苏11选5怎么玩 时时彩开奖视频 赚钱的英语单词怎么说 新11选5怎么充值 怎样下载腾讯分分彩 快手直播伴侣怎么赚钱 杰克棋牌官网 黑龙江十一选五中奖结果 形容帮别人赚钱的词语