如何爲斯坦福標記器創建自己的訓練語料庫？

我必須分析非正式的英文文本，有很多短手和當地的行話。因此，我正在考慮爲斯坦福標記器創建模型。如何爲斯坦福標記器創建自己的訓練語料庫？

我如何爲斯坦福標記器創建自己的標記語料集來訓練？

語料庫的語法和我的語料庫應該在多長時間內達到理想的性能？

來源

2010-07-01 goh

哪個組件：Stanford PoS tagger，或Stanford NER或Stanford Parser？ – 2010-07-01 13:07:20

親愛的嗨，我有同樣的問題你能解決你的問題嗎？怎麼樣？ – Paniz 2015-02-04 00:23:05

要訓練的PoS標記器，請參閱this mailing list post其也包括在JavaDocs爲MaxentTagger類。

爲edu.stanford.nlp.tagger.maxent.Train class的javadoc指定訓練格式：

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

來源

2010-07-01 13:20:37

我到處檢查過，但沒有指定如何構造培訓文件？我的訓練模式應該多長時間？ – goh 2010-07-02 07:23:37

@goh：我已回覆編輯。 – 2010-07-02 13:22:02

感謝您的幫助。 – goh 2010-07-06 07:52:54

對於斯坦福分析器，您使用Penn treebank format，並參閱Stanford's FAQ以瞭解要使用的確切命令。用於LexicalizedParser class的Javadoc也得到適當的命令，特別是：

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename

來源

2010-07-01 13:14:23

從本質上講，你的訓練過程中格式化文本應該有每行一個道理，其次是一個標籤，其次是一個標識符。標識符可以是「LOC」位置，公司「COR」或非實體令牌「0」。例如。

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0

當我們的團隊訓練的一系列分類模型，我們給此格式，大約有18萬令牌，每個培訓文件，我們看到在精密的淨改善，但在召回的淨減少。（值得注意的是，精度的提高並不具有統計意義。）如果對其他人有用，我描述了我們用來訓練分類器的過程以及訓練過的和默認的p，r和f1值分類器here。

來源

2013-10-22 13:16:33 duhaime

我想：的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有錯誤：

錯誤：無法找到或加載主類edu.stanford.nlp.parser.lexparser.LexicalizedParser

來源

2015-11-10 13:13:19 user5546706

如何爲斯坦福標記器創建自己的訓練語料庫？

回答

相關問題