2013-08-21 34 views
4

我工作的一個項目數據庫或文本文件,我需要得到一個給定的詞(詞幹)的根。如您所知,不使用字典的詞幹分析算法不準確。我也嘗試過WordNet,但對我的項目並不好。我找到了phpmorphy項目,但它不包含Java中的API。尋找英語單詞有着各自不同的形式

在這個時候,我要尋找一個數據庫或英文單詞與他們不同形式的文本文件。例如:

運行運行然... 包括含有包括... ...

謝謝您的幫助或建議。

回答

8

您可以下載LanguageTool(免責聲明:我是維護者),它帶有一個二進制文件english.dictThe LanguageTool Wiki描述如何轉儲文件爲文本文件:

java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict 

對於run,該文件將包含這樣的:

ran run VBD 
run run NN 
run run VB 
run run VBN 
run run VBP 
running run VBG 
runs run NNS 
runs run VBZ 

第一列是詞尾變化的形式,二是鹼形式,第三個是根據(稍微擴展的)Penn Treebank tagset的詞性標籤。

+0

由於'13該工具似乎已經顯著改變。今天相同的參數會達到相同的輸出?我找不到詞幹參數。它還在嗎?另外,我發現屬格情況例如'orthography's'被識別爲'正字法[正字/ NN,B-NP-奇異| E-NP-奇異] '['/ POS] S [S/POS,]'。那是對的嗎? –

+1

[維基](http://wiki.languagetool.org/developing-a-tagger-dictionary#toc​​2)具有與LanguageTool 3.9對我的作品的命令:-cp languagetool.jar org.languagetool.tools'爪哇。 DictionaryExporter -i組織/ languagetool /資源/ EN/english.dict -info組織/ languagetool /資源/ EN/english.info -o dictionary.dump' –