2017-09-26 75 views
1

我想使用NLTK構建pos標籤語料庫。這樣我就可以根據它來訓練我的模型。使用NLTK創建pos標籤語料庫

到目前爲止我已經提到很多來源,但每個人只是解釋如何閱讀你的標註語料和閱讀單詞,句子等,以下是一段代碼,我想:

from nltk.corpus.reader import TaggedCorpusReader 
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos') 
reader.words() 
reader.tagged_words() 
reader.sents() 

我想包括我的文集在home/nltk_data/corpora/文件夾中,以便我可以導入我創建的語料庫。 請指導我。

回答

1

我得到了這樣的工作解決方案: 請參閱link一步一步的過程。

here下載相同的必要文件。

一旦你按照1的命令,將生成pickle文件,這是你的標記語料庫。

一旦生成泡菜文件,你可以檢查你的惡搞是否工作正常,運行下面的代碼:

import nltk.data 
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle") 
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])