首先,我要感謝任何花時間幫助的人。互聯網社區對學習非常重要。實施Kstemmer
總體目標:我輸入.txt文件,在Eclipse中使用Java編譯的The 2003 CIIR KStemmer進行抑制,並將干擾詞列表輸出到不同的.txt文件中。
簡單:輸入txt文件,將.TXT整理成字符串或字符數組,輸出.TXT
問題:我不知道如何使用我的主代碼中的詞幹。
我已經包括在一個類文件(KStemmer.java)的CIIR代碼和進口下面的庫:
Apache的lucene的-analyzers.jar
Apache的lucene.jar
的Lucene分析儀,共4.2.0.jar
Lucene的核心 - 3.4.0.jar
在我的主類(StemThis.Java)我想要做這樣的事情:
String wordFromTextFile = new String(); // input word
String stemmedWord = new String(); // output word
printer = new PrintWriter("outputFile") // for file export
KStemmer newStemmer = new KStemmer(); // creating a stemmer
newStemmer.stem(wordFromTextFile); // stemming a word
stemmedWord = newStemmer.return(); // get stemmed word from stemmer
printer.println(stemmedWord); // desired output method
這顯然是過於簡單了。也許KStemmer不以這種方式工作。如何將字符串放入KStemmer並獲得輸出?