有沒有辦法在停用詞(例如,''''''等)使用基於JAVA的文檔分類器(如OpenNLP)等。或者如果您自己(使用JAVA)做什麼可能是最有效的方法(假定字符串比較效率低下)。另外,鑑於每個文件本身並不那麼大,即平均大約100個字,但假定文件數量很大。 E.g.,
// Populate the stop words to a list
List<String> stopWordsList =
我正在開發一個項目,我正在使用OpenNLP的一些功能。我需要的一個功能是stemmer。我搜索了一下,發現它在opennlp.tools.stemmer包中有一個Porter詞幹,但是我的IDE(IntelliJ IDEA 13.1)發現的唯一東西是Stemmer界面。 我正在使用OpenNLP 1.5.3。我在錯誤的地方尋找或者OpenNLP沒有執行stemmer?