2017-02-02 155 views
1

文件TF-IDF排名與排名的二元獨立模型有什麼區別?我無法區分它們。信息檢索系統

我認爲二進制獨立模型的實際實現導致了TF-IDF。如果我錯了,請幫助我。

+0

你是對的...... tf-idf是ad-hoc ......概率分析確定了爲什麼像tf-idf這樣的函數應該能夠很好地工作...... – Debasis

回答

2

主要區別在於,在二元獨立模型中,不知道一個單詞有多重要,並且所有單詞都被視爲相同。但是使用TF-IDF加權詞將給予在一個文檔中使用得更多,文檔頻率更少的詞更好的分數。

2

你是對的。 Binary Independence Model假設是文檔是二元向量。也就是說,只記錄文件中是否存在術語。另一方面,根據Vector Space Model,文檔由術語權重向量表示,並且TF-IDF僅僅是表示術語權重的一種方式。