我必須分析非正式的英文文本,有很多短手和當地的行話。因此,我正在考慮爲斯坦福標記器創建模型。如何爲斯坦福標記器創建自己的訓練語料庫?
我如何爲斯坦福標記器創建自己的標記語料集來訓練?
語料庫的語法和我的語料庫應該在多長時間內達到理想的性能?
我必須分析非正式的英文文本,有很多短手和當地的行話。因此,我正在考慮爲斯坦福標記器創建模型。如何爲斯坦福標記器創建自己的訓練語料庫?
我如何爲斯坦福標記器創建自己的標記語料集來訓練?
語料庫的語法和我的語料庫應該在多長時間內達到理想的性能?
要訓練的PoS標記器,請參閱this mailing list post其也包括在JavaDocs爲MaxentTagger類。
爲edu.stanford.nlp.tagger.maxent.Train class的javadoc指定訓練格式:
The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)
對於斯坦福分析器,您使用Penn treebank format,並參閱Stanford's FAQ以瞭解要使用的確切命令。用於LexicalizedParser class的Javadoc也得到適當的命令,特別是:
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
-train trainFilesPath fileRange
-saveToSerializedFile serializedGrammarFilename
從本質上講,你的訓練過程中格式化文本應該有每行一個道理,其次是一個標籤,其次是一個標識符。標識符可以是「LOC」位置,公司「COR」或非實體令牌「0」。例如。
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
當我們的團隊訓練的一系列分類模型,我們給此格式,大約有18萬令牌,每個培訓文件,我們看到在精密的淨改善,但在召回的淨減少。 (值得注意的是,精度的提高並不具有統計意義。)如果對其他人有用,我描述了我們用來訓練分類器的過程以及訓練過的和默認的p,r和f1值分類器here。
我想: 的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename
但我有錯誤:
錯誤:無法找到或加載主類edu.stanford.nlp.parser.lexparser.LexicalizedParser
哪個組件:Stanford PoS tagger,或Stanford NER或Stanford Parser? – 2010-07-01 13:07:20
親愛的嗨,我有同樣的問題你能解決你的問題嗎?怎麼樣? – Paniz 2015-02-04 00:23:05