我想從html頁面中提取相關關鍵字。刪除常見的英文單詞策略
我已經規定了所有html的東西,將文本拆分爲單詞,使用了一個詞幹程序,並從lucene中刪除了出現在詞尾列表中的所有單詞。
但是現在我仍然有很多基本的動詞和代詞作爲最常見的單詞。
在lucene或雪球或其他任何地方是否有一些方法或一組詞來過濾出所有這些東西,如「我,是,去,去,是,是,是,我們,你,我們......」 。「
我想從html頁面中提取相關關鍵字。刪除常見的英文單詞策略
我已經規定了所有html的東西,將文本拆分爲單詞,使用了一個詞幹程序,並從lucene中刪除了出現在詞尾列表中的所有單詞。
但是現在我仍然有很多基本的動詞和代詞作爲最常見的單詞。
在lucene或雪球或其他任何地方是否有一些方法或一組詞來過濾出所有這些東西,如「我,是,去,去,是,是,是,我們,你,我們......」 。「
這似乎是一個非常簡單的逆文檔頻率應用程序。如果你甚至有一個小的語料庫,即10,000個網頁,你可以計算每個單詞出現在文檔中的概率。然後選擇一個閾值,您認爲這些單詞開始變得有趣或內容豐富,並在該閾值之前排除單詞。
或者,此列表看起來不錯。 http://www.lextek.com/manuals/onix/stopwords1.html
您正在尋找術語「停用詞」。對於Lucene,這是內置的,您可以將它們添加到StopWordAnalyzer.java中(請參閱http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)