0
我正在存儲在Lucene索引中的n-gram達到3級。當我讀了指數和計算方面和n元語法我獲得這樣的頻率和雙字母組
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
結果讓計分,如果我們看看「湯姆克魯斯」的例子,一起它發生7次。由此我們看到「巡航」單獨發生5次。所以我不想重複這個頻率,因爲單獨的「巡航」比「湯姆巡航」的得分要好,這是不正確的,因爲它被包含在裏面。
對不起,如果我解釋不好,我不知道如何稱這種類型的得分,如果有人知道解釋這個技術詞彙,請編輯。
謝謝
非常感謝您的提示。我去了Kea,但似乎提供了更多領域特定的受控詞表,但是從Kea頁面我讀到了有關毛伊島的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的結果非常好!但是,我現在要挖掘試圖看到算法的詳細信息和計分計算..謝謝! – Julia 2010-08-28 12:19:28