7

我想應用詞形化來減少單詞的屈折形式。我知道對於英語語言來說,WordNet提供了這樣的功能,但我也有興趣應用荷蘭語,法語,西班牙語和意大利語單詞的詞形。有沒有可靠的和可靠的方法去解決這個問題?謝謝!非英語單詞的詞形化?

+0

參見https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA

+0

所引述的問題的答覆討論法國詞幹而不是lemmatizers – duhaime

+0

我必須尋找同樣的事情,但對於意大利 –

回答

8

嘗試pattern從CLIPS庫,他們支持德語,英語,西班牙語,法語和意大利語。正是你需要的:http://www.clips.ua.ac.be/pattern

不幸的是,它只適用於Python 2,不支持Python3提供。

+0

謝謝,這很完美!正是我在找的! – Crista23

-1

textacy庫http://textacy.readthedocs.io/en/latest/api_reference.html提供了一些必要的工具,用於構建包含作爲其選項一部分的詞形變化的詞彙或術語包。我用西班牙語嘗試過,效果相當不錯。

doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True) 

該庫會自動檢查您正在寫入的語言並據此進行lemmatize。但是,您也可以在此處指定它。

import textacy 
text = 'Los gatos y los perros juegan juntos en el patio de su casa' 
doc = textacy.Doc(text, lang='es') 
print(doc.to_bag_of_words(normalize='lemma', as_strings=True)) 

你會得到一個輸出爲以下 { '佩羅':1, 'Y':1, '小鯊魚':1, 'JUGAR':1, 'CASAR':1,「洛杉磯':1,'庭院':1}

圖書館很好地認識了一些詞,然而,這些詞並沒有完全被認出。希望這可以幫助。

+0

如果您更多地解釋了該庫如何用於非英語語言並顯示一些示例輸出,它將會很有用。 – vpekar