2010-07-01 74 views
15

我必須分析非正式的英文文本,有很多短手和當地的行話。因此,我正在考慮爲斯坦福標記器創建模型。如何爲斯坦福標記器創建自己的訓練語料庫?

我如何爲斯坦福標記器創建自己的標記語料集來訓練?

語料庫的語法和我的語料庫應該在多長時間內達到理想的性能?

+0

哪個組件:Stanford PoS tagger,或Stanford NER或Stanford Parser? – 2010-07-01 13:07:20

+0

親愛的嗨,我有同樣的問題你能解決你的問題嗎?怎麼樣? – Paniz 2015-02-04 00:23:05

回答

7

要訓練的PoS標記器,請參閱this mailing list post其也包括在JavaDocs爲MaxentTagger類。

edu.stanford.nlp.tagger.maxent.Train class的javadoc指定訓練格式:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

+0

我到處檢查過,但沒有指定如何構造培訓文件?我的訓練模式應該多長時間? – goh 2010-07-02 07:23:37

+0

@goh:我已回覆編輯。 – 2010-07-02 13:22:02

+0

感謝您的幫助。 – goh 2010-07-06 07:52:54

1

對於斯坦福分析器,您使用Penn treebank format,並參閱Stanford's FAQ以瞭解要使用的確切命令。用於LexicalizedParser class的Javadoc也得到適當的命令,特別是:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename 
6

從本質上講,你的訓練過程中格式化文本應該有每行一個道理,其次是一個標籤,其次是一個標識符。標識符可以是「LOC」位置,公司「COR」或非實體令牌「0」。例如。

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0 

當我們的團隊訓練的一系列分類模型,我們給此格式,大約有18萬令牌,每個培訓文件,我們看到在精密的淨改善,但在召回的淨減少。 (值得注意的是,精度的提高並不具有統計意義。)如果對其他人有用,我描述了我們用來訓練分類器的過程以及訓練過的和默認的p,r和f1值分類器here

0

我想: 的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有錯誤:

錯誤:無法找到或加載主類edu.stanford.nlp.parser.lexparser.LexicalizedParser

相關問題