2013-10-04 33 views
2

我正嘗試在python中使用布爾模型創建查詢 - 答案系統。python中的布爾檢索模型

我試圖用NLTK但它似乎是它doesn't有功能的布爾模型

我有3個文件,我很期待看到哪些是更類似於W /數字值。

例如DOC1 2.987,DOC2 0.876和doc3的2.156因此DOC1和DOC2類似

我所做的:

  • 記號化文檔
  • 刪除重複的話
  • 停用詞移除

我現在擁有的是每個文件(basica lly名詞,動詞,副詞和形容詞)

現在下一步是什麼?

+0

爲什麼刪除重複的話嗎?文件中最常出現的重複單詞可能與主題有關,因此對兩個文件是否相似有很大影響。 –

+0

你說得對!我認爲它可以更好地移除停用詞。 – JPP

+0

@cms_mgr:在布爾檢索模型中,重複的單詞不起作用。 –

回答

2

刪除停用詞可能很有用。您可以查找稱爲餘弦相似性的術語。基本上它可以用於機器學習。它可以用來查找文檔之間的相似性。你可以在Python中尋找Scikit。如果你想使用它你的選擇。但是這裏有一些教程解釋瞭如何計算這個餘弦相似度。

part-Ipart-IIpart-III

您也可以看看這個問題

Python: tf-idf-cosine: to find document similarity

我希望它能幫助:)