我想應用詞形化來減少單詞的屈折形式。我知道對於英語語言來說,WordNet提供了這樣的功能,但我也有興趣應用荷蘭語,法語,西班牙語和意大利語單詞的詞形。有沒有可靠的和可靠的方法去解決這個問題?謝謝!非英語單詞的詞形化?
回答
嘗試pattern
從CLIPS庫,他們支持德語,英語,西班牙語,法語和意大利語。正是你需要的:http://www.clips.ua.ac.be/pattern
不幸的是,它只適用於Python 2,不支持Python3提供。
謝謝,這很完美!正是我在找的! – Crista23
textacy庫http://textacy.readthedocs.io/en/latest/api_reference.html提供了一些必要的工具,用於構建包含作爲其選項一部分的詞形變化的詞彙或術語包。我用西班牙語嘗試過,效果相當不錯。
doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True)
該庫會自動檢查您正在寫入的語言並據此進行lemmatize。但是,您也可以在此處指定它。
import textacy
text = 'Los gatos y los perros juegan juntos en el patio de su casa'
doc = textacy.Doc(text, lang='es')
print(doc.to_bag_of_words(normalize='lemma', as_strings=True))
你會得到一個輸出爲以下 { '佩羅':1, 'Y':1, '小鯊魚':1, 'JUGAR':1, 'CASAR':1,「洛杉磯':1,'庭院':1}
圖書館很好地認識了一些詞,然而,這些詞並沒有完全被認出。希望這可以幫助。
如果您更多地解釋了該庫如何用於非英語語言並顯示一些示例輸出,它將會很有用。 – vpekar
- 1. 刪除python中的非英語單詞
- 2. NLP - 英語形態詞典
- 3. 在線詞典的英語單詞MySQL
- 4. 如何替換英文單詞與非英語單詞(UTF-8)交錯
- 5. 自然英語單詞
- 6. 英語單詞分類
- 7. 使用`textcat`過濾掉語料庫中的非英語單詞
- 8. 單詞列表的詞形化
- 9. 如何優化詞表的英語
- 10. PHP英語詞典
- 11. 在python中,提取非英文單詞
- 12. placehold.it打印非英文單詞
- 13. 忽略獲取索引的非英語單詞
- 14. 任何用於阻止非英語單詞的Java函數?
- 15. Android應用程序中的非英語單詞
- 16. 來源迭代通過英語詞典的所有單詞
- 17. 用於Windows Phone 7的英語單詞詞典數據庫
- 18. 列車數據的同義詞單詞英語與opennlp
- 19. PyEnchant:用英語單詞替換互聯網友好的詞
- 20. 尋找英語單詞有着各自不同的形式
- 21. 如何拼寫出英語單詞
- 22. 檢查單詞是否是英語Python
- 23. 如何在Java中獲得非英語單詞?
- 24. 從MATLAB辭典中刪除非英語單詞
- 25. 提取非內容英語單詞字符串 - python
- 26. 動詞/名詞/形容詞形式之間的單詞轉換
- 27. 將美式英文單詞轉換爲英式單詞
- 28. 英語譯成英語詞彙表,含單行含義
- 29. 使用Lucene 6詞幹英語單詞6
- 30. 英文單詞和句子詞典
參見https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA
所引述的問題的答覆討論法國詞幹而不是lemmatizers – duhaime
我必須尋找同樣的事情,但對於意大利 –