2
我正嘗試在python中使用布爾模型創建查詢 - 答案系統。python中的布爾檢索模型
我試圖用NLTK但它似乎是它doesn't有功能的布爾模型
我有3個文件,我很期待看到哪些是更類似於W /數字值。
例如DOC1 2.987,DOC2 0.876和doc3的2.156因此DOC1和DOC2類似
我所做的:
- 記號化文檔
- 刪除重複的話
- 停用詞移除
我現在擁有的是每個文件(basica lly名詞,動詞,副詞和形容詞)
現在下一步是什麼?
爲什麼刪除重複的話嗎?文件中最常出現的重複單詞可能與主題有關,因此對兩個文件是否相似有很大影響。 –
你說得對!我認爲它可以更好地移除停用詞。 – JPP
@cms_mgr:在布爾檢索模型中,重複的單詞不起作用。 –