2012-01-13 94 views
2

我需要遍歷英語詞典的所有單詞&根據是否是名詞/動詞或其他&過濾某些其他特徵。有沒有什麼東西可以作爲這些詞的來源?來源迭代通過英語詞典的所有單詞

+0

什麼英語詞典?你在找那本字典嗎?如果不是,你是否收到「單詞對象」,其中包含的信息,如它的價值,如果它是名詞/動詞...或只是沒有任何其他信息的純文字?你已經有一些代碼? – talnicolas 2012-01-13 19:11:26

回答

1

我推薦來自princeton.edu的WordNet它與字流行的英語詞彙數據庫屬性,如:語音,例如的

  1. 簡短的定義
  2. 部分名詞,動詞,形容詞,& c。
  3. 同義詞和集團

有來自smu.edu,將簡化在應用程序中使用共發現一個WordNet Java API。你也可以下載數據庫並自己解析它,因爲它只有12MB​​的壓縮。

2

只是想提到,關於WordNet,有'停止詞'不包括在內。一些在線的人已經制作了停用詞表,但我不確定它們是多麼完整。 一些停止詞語是:'''','那','我','從'''到''。

較大的名單是在這裏: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

對於單詞的列表,請參閱本SourceForge項目: http://wordlist.sourceforge.net/

您可能還需要搜索這樣的列表的usecases,爲了找到合適的數據源。

例如:

  • 拼寫檢查算法使用的單詞列表(獨立拼寫檢查器,文字處理應用程序,如OpenOffice的,等等)。

  • 文字遊戲算法使用的話(拼字遊戲類型的遊戲,詞彙教學遊戲,縱橫字謎發電機)

  • 密碼破解算法使用的話,以幫助找到弱口令。 outpost9.com/files/WordLists.html

也有幾個的Java API可供選擇,並且只與最近的辭典(3.1)的一個由MIT使用Java 5和單詞,共發現3.1的一些工作。