2011-09-23 59 views
0

我想從html頁面中提取相關關鍵字。刪除常見的英文單詞策略

我已經規定了所有html的東西,將文本拆分爲單詞,使用了一個詞幹程序,並從lucene中刪除了出現在詞尾列表中的所有單詞。

但是現在我仍然有很多基本的動詞和代詞作爲最常見的單詞。

在lucene或雪球或其他任何地方是否有一些方法或一組詞來過濾出所有這些東西,如「我,是,去,去,是,是,是,我們,你,我們......」 。「

回答

2

這似乎是一個非常簡單的逆文檔頻率應用程序。如果你甚至有一個小的語料庫,即10,000個網頁,你可以計算每個單詞出現在文檔中的概率。然後選擇一個閾值,您認爲這些單詞開始變得有趣或內容豐富,並在該閾值之前排除單詞。

或者,此列表看起來不錯。 http://www.lextek.com/manuals/onix/stopwords1.html

1

Rtm軟件包爲許多常見的NLP任務提供了一個通過R的接口,並且具有與Weka的接口。這可能值得一試。該文檔是here

在更仔細地查看您的問題時,您可能正在尋找tm軟件包中的removeStopWords()功能。