非英語單詞的詞形化？

我想應用詞形化來減少單詞的屈折形式。我知道對於英語語言來說，WordNet提供了這樣的功能，但我也有興趣應用荷蘭語，法語，西班牙語和意大利語單詞的詞形。有沒有可靠的和可靠的方法去解決這個問題？謝謝！非英語單詞的詞形化？

來源

2014-03-03 Crista23

參見https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA

所引述的問題的答覆討論法國詞幹而不是lemmatizers – duhaime

我必須尋找同樣的事情，但對於意大利 –

嘗試pattern從CLIPS庫，他們支持德語，英語，西班牙語，法語和意大利語。正是你需要的：http://www.clips.ua.ac.be/pattern

不幸的是，它只適用於Python 2，不支持Python3提供。

來源

2014-03-03 12:24:56 alvas

謝謝，這很完美！正是我在找的！ – Crista23

-1

textacy庫http://textacy.readthedocs.io/en/latest/api_reference.html提供了一些必要的工具，用於構建包含作爲其選項一部分的詞形變化的詞彙或術語包。我用西班牙語嘗試過，效果相當不錯。

doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True)

該庫會自動檢查您正在寫入的語言並據此進行lemmatize。但是，您也可以在此處指定它。

import textacy 
text = 'Los gatos y los perros juegan juntos en el patio de su casa' 
doc = textacy.Doc(text, lang='es') 
print(doc.to_bag_of_words(normalize='lemma', as_strings=True))

你會得到一個輸出爲以下 { '佩羅'：1， 'Y'：1， '小鯊魚'：1， 'JUGAR'：1， 'CASAR'：1，「洛杉磯'：1，'庭院'：1}

圖書館很好地認識了一些詞，然而，這些詞並沒有完全被認出。希望這可以幫助。

來源

2017-12-13 15:53:11

如果您更多地解釋了該庫如何用於非英語語言並顯示一些示例輸出，它將會很有用。 – vpekar

非英語單詞的詞形化？

回答

相關問題