1
也許這個問題有點奇怪......但我會試着問它。使用RDD的詞規範化
大家,誰使用Lucene API寫的應用程序,看到的是這樣的:
public static String removeStopWordsAndGetNorm(String text, String[] stopWords, Normalizer normalizer) throws IOException
{
TokenStream tokenStream = new ClassicTokenizer(Version.LUCENE_44, new StringReader(text));
tokenStream = new StopFilter(Version.LUCENE_44, tokenStream, StopFilter.makeStopSet(Version.LUCENE_44, stopWords, true));
tokenStream = new LowerCaseFilter(Version.LUCENE_44, tokenStream);
tokenStream = new StandardFilter(Version.LUCENE_44, tokenStream);
tokenStream.reset();
String result = "";
while (tokenStream.incrementToken())
{
CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
try
{
//normalizer.getNormalForm(...) - stemmer or lemmatizer
result += normalizer.getNormalForm(token.toString()) + " ";
}
catch(Exception e)
{
//if something went wrong
}
}
return result;
}
是否有可能重寫的話正常化使用RDD? 也許有人有這種轉變的例子,或者可以指定關於它的網絡資源?
謝謝。
Thanx Man!我會嘗試使用它並通知結果! – dimson
男人!我需要建議...你認爲 - 什麼方法更有效 - 將文檔分散到節點上,然後對每個文檔的詞彙進行標記和標準化,或者連續獲取每個文檔,對它進行標記並將詞語分散到節點,每個節點將有一個標準化函數的副本?謝謝! – dimson