如何從Python的nltk中爲波蘭語提取pl196x引理？

我寫了一些基本的程序，我想從波蘭語中提取引理，因爲波蘭語使用了變化，所以這是非常重要的。如何從Python的nltk中爲波蘭語提取pl196x引理？

我創建簡單的程序加載數據並轉換字爲引理，但不知道如何做到這一點：

from nltk import corpus 

pl = corpus.pl196x 
print dir(pl) 
print iter(pl.tagged_words()).next()

例如，我想去做這樣的詞形還原（忽略一些詞形還原可能是不明確 - 這是正常在波蘭）：

kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male) 
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!) 
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral) 
etc. (plural males, plural females, plural neutrals)

如何使用pl196x做這樣的工作或nltk。

爲語料來源數據包含這樣的語調和引理 - 所以它是可能的，但如何訪問：

<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w> 
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w> 
etc.

來源

2015-03-08 Chameleon

我不知道這是否在NLTK本身是可能的。當我遇到類似的問題時，我使用了Morfeusz（http://sgjp.pl/morfeusz/）。雖然我只使用了C庫的版本，但它有一個Python綁定（http://jwilk.net/software/python-morfeusz）。

來源

2015-06-28 20:56:37 jaboja

看來這是最好的主意，如果新版本還不支持它。 – Chameleon 2015-07-20 12:07:20

如何從Python的nltk中爲波蘭語提取pl196x引理？

回答

相關問題