2013-04-03 16 views

回答

0

兩個指標...沿兩個維度區分 - 信息量(IDF)和關涉(TF)

包含數百一些高IDF項目的出現的會 導致較差的文件,嘈雜的比賽...在前。垃圾郵件文件

很好看 - Beyond bags of words,(唐納德A.小梅茨勒2007)

+0

對不起,我不明白歧視信息量(IDF)和關涉(TF)如何解釋呢?謝謝 –

+1

如果文檔中某個術語的頻率很高,可以說文檔在某種程度上與該術語有關(TF) 許多文檔中遇到的常見術語被認爲是噪聲(例如:這,......),他們不會給文件或非常少的(IDF)帶來新的信息。花一些時間閱讀鏈接的文章,你會更好地看待這個問題。在大多數情況下,TF-IDF的組合優於單獨的TF。這些都是可以用於術語向量的術語加權方案。乾杯 –

+1

@IonCojocaru我有相反的問題......有沒有什麼情況下IDF比TF-IDF好?據我瞭解,TF對文檔中的單詞賦予權重以便將該文檔與預定義的查詢進行匹配非常重要。如果我只想在沒有任何特定的IR目的的情況下對文檔集合中的單詞的重要性進行分類,爲什麼我應該使用TF術語? – gabboshow

相關問題