創建自定義nltk語料庫閱讀了很多帖子後,我仍然有在nltk中製作自定義語料庫的probs。我有一個標記句子的文本文件,每個項目的形式...字/標籤的字符串。我想用這些東西來訓練一個標記器。我正在嘗試使用名爲train-tagger的nltk包,它可以訓練各種類型的標籤。 2個問題。 1)可以訓練標記器使用文本文件作爲輸入還是僅使用nltk語料庫對象? 2)如果只使用語料庫,如何從文本文件創建一個?我試了下面的代碼來創建一個語料庫...從標記的文本文件
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = './'
newcorpus = PlaintextCorpusReader(corpus_root, '.*')
print newcorpus.raw('IOBHarrisonsTraining.txt') .... this is my tagged text file
似乎工作,但我找不到輸出。應該有一個語料庫在該代碼運行的文件夾中創建,或者在nltk_data/corpora中創建,但沒有找到。在語料庫模塊中是否有一些方法可以保存我創建的'newcorpus'?然後可以用它作爲inpupt來訓練標記器?另外,我是否應該使用標記句子文件作爲PlaintextCorpusReader的輸入或者僅僅是一個未標記的句子集?