2016-05-10 69 views

回答

2

當前您的最佳選擇是在導入文檔之前應用stemmer。如果您對Java編程還可以,可以選擇創建一個PorterStemmer Pipe類來修改TokenSequence。

但是,如果您正在訓練英文文本的主題模型,則詞幹幾乎肯定無用。該模型通常可以簡單地通過上下文將相關單詞組合在一起,並且通常會產生難以讓用戶解釋的奇怪外觀的不太完美的單詞。

+0

感謝您的回覆。 – osmjit

+0

在使用python或任何其他工具導入文檔之前,如何將詞幹應用於文件夾中的多個文件。請建議 – osmjit

相關問題