0
我寫了一些基本的程序,我想從波蘭語中提取引理,因爲波蘭語使用了變化,所以這是非常重要的。如何從Python的nltk中爲波蘭語提取pl196x引理?
我創建簡單的程序加載數據並轉換字爲引理,但不知道如何做到這一點:
from nltk import corpus
pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()
例如,我想去做這樣的詞形還原(忽略一些詞形還原可能是不明確 - 這是正常在波蘭):
kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!)
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)
如何使用pl196x做這樣的工作或nltk。
爲語料來源數據包含這樣的語調和引理 - 所以它是可能的,但如何訪問:
<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.
看來這是最好的主意,如果新版本還不支持它。 – Chameleon 2015-07-20 12:07:20