4
我工作的一個項目數據庫或文本文件,我需要得到一個給定的詞(詞幹)的根。如您所知,不使用字典的詞幹分析算法不準確。我也嘗試過WordNet,但對我的項目並不好。我找到了phpmorphy項目,但它不包含Java中的API。尋找英語單詞有着各自不同的形式
在這個時候,我要尋找一個數據庫或英文單詞與他們不同形式的文本文件。例如:
運行運行然... 包括含有包括... ...
謝謝您的幫助或建議。
我工作的一個項目數據庫或文本文件,我需要得到一個給定的詞(詞幹)的根。如您所知,不使用字典的詞幹分析算法不準確。我也嘗試過WordNet,但對我的項目並不好。我找到了phpmorphy項目,但它不包含Java中的API。尋找英語單詞有着各自不同的形式
在這個時候,我要尋找一個數據庫或英文單詞與他們不同形式的文本文件。例如:
運行運行然... 包括含有包括... ...
謝謝您的幫助或建議。
您可以下載LanguageTool(免責聲明:我是維護者),它帶有一個二進制文件english.dict
。 The LanguageTool Wiki描述如何轉儲文件爲文本文件:
java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict
對於run
,該文件將包含這樣的:
ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ
第一列是詞尾變化的形式,二是鹼形式,第三個是根據(稍微擴展的)Penn Treebank tagset的詞性標籤。
由於'13該工具似乎已經顯著改變。今天相同的參數會達到相同的輸出?我找不到詞幹參數。它還在嗎?另外,我發現屬格情況例如'orthography's'被識別爲'
正字法[正字/ NN,B-NP-奇異| E-NP-奇異] '['/ POS] S [S/POS,]'。那是對的嗎? –[維基](http://wiki.languagetool.org/developing-a-tagger-dictionary#toc2)具有與LanguageTool 3.9對我的作品的命令:-cp languagetool.jar org.languagetool.tools'爪哇。 DictionaryExporter -i組織/ languagetool /資源/ EN/english.dict -info組織/ languagetool /資源/ EN/english.info -o dictionary.dump' –