1
我希望在保存爲用於Mallet模型的InputDirectory中的單個文件的語料庫上應用使用porter算法的詞根分析。有人可以幫助它如何執行?如何使用Mallet進行主題建模
我希望在保存爲用於Mallet模型的InputDirectory中的單個文件的語料庫上應用使用porter算法的詞根分析。有人可以幫助它如何執行?如何使用Mallet進行主題建模
當前您的最佳選擇是在導入文檔之前應用stemmer。如果您對Java編程還可以,可以選擇創建一個PorterStemmer Pipe類來修改TokenSequence。
但是,如果您正在訓練英文文本的主題模型,則詞幹幾乎肯定無用。該模型通常可以簡單地通過上下文將相關單詞組合在一起,並且通常會產生難以讓用戶解釋的奇怪外觀的不太完美的單詞。
感謝您的回覆。 – osmjit
在使用python或任何其他工具導入文檔之前,如何將詞幹應用於文件夾中的多個文件。請建議 – osmjit