如何在整個Penn Treebank語料庫上培訓NLTK？

我最初使用下面的賓州樹庫惡搞從NLTK：如何在整個Penn Treebank語料庫上培訓NLTK？

POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))

然而，這達不到上發言的文字。例如，「hello」在它應該是時不被認爲是一個感嘆詞。我從這裏（In NLTK pos_tag, why 「hello」 is classified as Noun?）讀到，如果我想標註口語文本，我將「需要在整個Penn Treebank上訓練標註器，其中包括300萬字的英語口語。」我現在的問題是如何我可以這樣做嗎？我一直在這裏（Penn Treebank Project），但找不到任何東西。

如果整個Penn Treebank的培訓太困難了，那麼會有什麼替代方案？我正在考慮布朗語料庫，但是POS標籤是不同的，這使我不得不重寫程序的其他部分。

來源

2013-06-03 johnnythejames

不幸的是，賓州樹庫只能通過Linguistic Data Consortium獲得鉅額費用。如果您的需求是非商業性的，您可能會找到一位可以授予您訪問權限的學術人員。

另外，您可以創建自己的銀標準運行現有的POS標註器像ClearNLP tools或您的一些其他數據Stanford CoreNLP tools（新聞文章，布朗，維基百科等（相對於黃金標準）的數據... ）然後你可以帶上這個標記的數據並訓練NLTK標記器。當然，如果您需要更適合語音的數據，您可能需要查看交換機語料庫。它看起來像是通過知識共享許可證提供的version with some POS and syntactic annotation。

來源

2013-10-09 05:56:18