2010-08-27 102 views
0

我正在存儲在Lucene索引中的n-gram達到3級。當我讀了指數和計算方面和n元語法我獲得這樣的頻率和雙字母組

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819 

結果讓計分,如果我們看看「湯姆克魯斯」的例子,一起它發生7次。由此我們看到「巡航」單獨發生5次。所以我不想重複這個頻率,因爲單獨的「巡航」比「湯姆巡航」的得分要好,這是不正確的,因爲它被包含在裏面。

對不起,如果我解釋不好,我不知道如何稱這種類型的得分,如果有人知道解釋這個技術詞彙,請編輯。

謝謝

回答

3

我相信我回答了你剛纔問過的一個類似問題。 IIUC,你想要更重要的條款脫穎而出,你覺得「湯姆巡航」比「巡航」更重要。

這看起來像是數據模型中的問題。 TFIDF似乎是錯誤的,你想要什麼。 您可以嘗試構建語言模型,如Peter Norvig's "Beautiful Data" chapter中所述。

主旨在於:

  • 計算每個每個單字組,二元和三字母組的概率(需要平滑或回退的文件作爲解釋)。
  • 按概率而非TFIDF選擇您的條款。

A Language Model Approach to Keyphrase Extraction似乎做類似的東西。一些替代品是Kea(其使用TFIDF作爲幾個中的一個特徵)和Peter Turney's Keyphrase extraction work

+0

非常感謝您的提示。我去了Kea,但似乎提供了更多領域特定的受控詞表,但是從Kea頁面我讀到了有關毛伊島的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的結果非常好!但是,我現在要挖掘試圖看到算法的詳細信息和計分計算..謝謝! – Julia 2010-08-28 12:19:28