我最初使用下面的賓州樹庫惡搞從NLTK:如何在整個Penn Treebank語料庫上培訓NLTK?
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))
然而,這達不到上發言的文字。例如,「hello」在它應該是時不被認爲是一個感嘆詞。我從這裏(In NLTK pos_tag, why 「hello」 is classified as Noun?)讀到,如果我想標註口語文本,我將「需要在整個Penn Treebank上訓練標註器,其中包括300萬字的英語口語。」我現在的問題是如何我可以這樣做嗎?我一直在這裏(Penn Treebank Project),但找不到任何東西。
如果整個Penn Treebank的培訓太困難了,那麼會有什麼替代方案?我正在考慮布朗語料庫,但是POS標籤是不同的,這使我不得不重寫程序的其他部分。
現在位置:http://www.anc.org – zadrozny