你知道返回正確的結果爲下面的示例也就是說任何足夠大的lemmatizer數據庫:英文lemmatizer數據庫?
geese: goose
plantes: //not found
WORDNET的形態分析是不夠的,因爲它提供了以下不正確的結果:
geese: //not found
plantes: plant
你知道返回正確的結果爲下面的示例也就是說任何足夠大的lemmatizer數據庫:英文lemmatizer數據庫?
geese: goose
plantes: //not found
WORDNET的形態分析是不夠的,因爲它提供了以下不正確的結果:
geese: //not found
plantes: plant
MorphAdorner似乎在這一點上更好,但它仍然發現「花盆」的錯誤結果
plantes: plante
geese: goose
也許你想使用MorphAdorner來進行詞式化,然後根據WordNet檢查其結果。您可以使用WordNet API執行查找而不需要,通過調用findtheinfo_ds
首先執行詞形變化。這可以讓你首先使用像MorphAdorner這樣的lemmatizer。 (如果您想使用lemmaitzer,您需要分別撥打morph
並在返回的引理上致電findtheinfo_ds
。)
另一方面,爲了這個目的,我只花了大約5秒鐘看着MorphAdorner,並且可能有一種方法可以消除不需要使用任何其他外部資源的不正確「木板」答案。
Once upon a time,有人向我建議Morpha,但我沒有使用它,所以我不知道它是否比WordNet更好。
它沒有在線演示,但讀取的描述看起來不是基於數據庫。但如果我沒有時間不夠,我會嘗試。 – 2011-06-10 16:19:30
謝謝,在取消選中「標準化拼寫」後,它返回'plante',可以根據wordnet檢查它是否正確(我直接使用wordnet文件)。但是,你是否知道「早期現代英語/十九世紀小說」的選擇是否最近足以用於現代英語的語料庫? – 2011-06-10 16:10:37
@Johns:這就是當我說我只花了5秒鐘看的時候暗示的。嘗試查看他們的文檔,看看它是否有任何說明。 – 2011-06-10 16:13:20