java中的停用詞去除

-1

我不知道是否有任何線索如何開始寫我自己的停用詞刪除，而我不想使用任何外部libraries.after創建HashSet後，我們如何將它放到工作中去除文本的停止詞？再一次，我不想使用任何外部庫。java中的停用詞去除

2011-12-08 seventeen

您是否需要[this]？（http://www.textfixer.com/resources/common-english-words.txt） – chance

您可以從文件或資源中讀取停用詞。 – Ingo

我不太明白你的問題是什麼：你想以某種方式計算停用詞是什麼，或者你需要一種更快的方式將你定義的那些添加到集合中？ – Thomas

我會從文件中讀取它們。每字一行。

Set<String> stopWords = new LinkedHashSet<String>(); 
BufferedReader br = new BufferedReader(new FileReader("stop-words.txt")); 
for(String line;(line = br.readLine()) != null;) 
    stopWords.add(line.trim()); 
br.close(); 

if(stopWords.contains(word)) 
    // it's a stop word 
else 
    // it's not a stop word.

來源

2011-12-08 10:33:47

+1使用link @chance提供的你可以將它們放在一行中，並且需要使用'''作爲分隔符來分割它們。但這只是該文件內容的另一種格式:) – Thomas

所以在創建這樣的HashSet之後，如何將其投入工作？ – seventeen

@MostafaAlli我已經添加了一個使用集合的例子。 –

如果你有一組停止的話，你要刪除從停止單詞的列表，只需遍歷列表，刪除包含在設置止損的話任何話：

Set<String> stopWords = new HashSet<String>(); 
//fill stopWords 

//use a linked list to make removal faster, you don't need random access here 
List<String> text = new LinkedList<String>(); 
//fill text 

Iterator<String> textIterator = text.iterator(); 
while(textIterator.hasNext()) { 
    //this assumes there are no null entries in the list  
    //and all stopwords are stored in lower case 
    if(stopWords.contains(textIterator.next().toLowerCase())) { 
    textIterator.remove(); 
    } 
}

來源

2011-12-08 10:47:58 Thomas

耶！那看起來像我的意思:) – seventeen

那麼，你如何做停用詞移除的一般想法是，你將輸入文本分成單詞，然後在停用詞映射中查找每個單詞。停用詞查找可能需要不區分大小寫。

具體內容取決於文本內容以及打算如何處理。

來源

2011-12-08 10:48:20

我知道，但是當我們發現停止詞，如何從文本中取出它？ – seventeen

@MostafaAlli - 當你從單詞中重新排列文字時，你不會將它從文本中刪除。看到我的答案。 –

java中的停用詞去除

回答

相關問題