2013-06-03 129 views
3

我最初使用下面的賓州樹庫惡搞從NLTK:如何在整個Penn Treebank語料庫上培訓NLTK?

POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN')) 

然而,這達不到上發言的文字。例如,「hello」在它應該是時不被認爲是一個感嘆詞。我從這裏(In NLTK pos_tag, why 「hello」 is classified as Noun?)讀到,如果我想標註口語文本,我將「需要在整個Penn Treebank上訓練標註器,其中包括300萬字的英語口語。」我現在的問題是如何我可以這樣做嗎?我一直在這裏(Penn Treebank Project),但找不到任何東西。

如果整個Penn Treebank的培訓太困難了,那麼會有什麼替代方案?我正在考慮布朗語料庫,但是POS標籤是不同的,這使我不得不重寫程序的其他部分。

回答

1

不幸的是,賓州樹庫只能通過Linguistic Data Consortium獲得鉅額費用。如果您的需求是非商業性的,您可能會找到一位可以授予您訪問權限的學術人員。

另外,您可以創建自己的銀標準運行現有的POS標註器像ClearNLP tools或您的一些其他數據Stanford CoreNLP tools(新聞文章,布朗,維基百科等(相對於黃金標準)的數據... )然後你可以帶上這個標記的數據並訓練NLTK標記器。當然,如果您需要更適合語音的數據,您可能需要查看交換機語料庫。它看起來像是通過知識共享許可證提供的version with some POS and syntactic annotation

3

你可能要考慮美國國家語料庫。儘管並非全部都是免費提供的,但大部分是(約1400萬字)。該部分被稱爲「OANC」(「Open」的「O」)。它用Penn Treebank POS標籤標記。

它還包括更高級別的註釋,例如段落,句子,名詞和動詞「塊」,您可能需要也可能不需要,但當然可以忽略。

http://www.americannationalcorpus.org/OANC/index.html

+1

現在位置:http://www.anc.org – zadrozny