python中的布爾檢索模型

我正嘗試在python中使用布爾模型創建查詢 - 答案系統。python中的布爾檢索模型

我試圖用NLTK但它似乎是它doesn't有功能的布爾模型

我有3個文件，我很期待看到哪些是更類似於W /數字值。

例如DOC1 2.987，DOC2 0.876和doc3的2.156因此DOC1和DOC2類似

我所做的：

我現在擁有的是每個文件（basica lly名詞，動詞，副詞和形容詞）

現在下一步是什麼？

2013-10-04 JPP

爲什麼刪除重複的話嗎？文件中最常出現的重複單詞可能與主題有關，因此對兩個文件是否相似有很大影響。 –

你說得對！我認爲它可以更好地移除停用詞。 – JPP

@cms_mgr：在布爾檢索模型中，重複的單詞不起作用。 –

刪除停用詞可能很有用。您可以查找稱爲餘弦相似性的術語。基本上它可以用於機器學習。它可以用來查找文檔之間的相似性。你可以在Python中尋找Scikit。如果你想使用它你的選擇。但是這裏有一些教程解釋瞭如何計算這個餘弦相似度。

您也可以看看這個問題

我希望它能幫助:)

2013-10-22 05:26:06 Gunjan

回答