其實我打算爲波斯人做一個HMM POS tagger。我正在研究如下的語料庫。左邊的第一列包括波斯語單詞和右側第二列的POS標籤。 我的問題是,我如何通讀它,根據句子標記它,然後將標記和單詞保存在列表中,如下面的代碼所示?我如何通過這樣一個語料庫讀取?
words = [nltk.word_tokenize(s) for s in sentences]
tagged = [nltk.pos_tag(w) for w in words]
任何建議或代碼,它可以幫助我嗎?
# DELM
اولين ADJ_SUP
سياره N_SING
خارج ADJ_SIM
از P
منظومه N_SING
شمسي ADJ_SIM
ديده ADJ_INO
شد V_PA
. DELM
# DELM
# DELM
واشنگتن N_SING
ـ DELM
خبرگزاري N_SING
جمهوري N_SING
اسلامي ADJ_SIM
# DELM
ستاره شناسان N_PL
مي گويند V_PRS
كه CON
ممكن ADJ_SIM
است V_PRE
اولين ADJ_SUP
سياره N_SING
خارج ADJ_SIM
از P
منظومه N_SING
شمسي ADJ_SIM
را P
ديده ADJ_INO
باشند V_SUB
. DELM
什麼是您的文件格式? – Kasramvd
@Kasra .txt文件 – marysd