2014-12-27 32 views
0

在文檔我會看到調用java類使用參數:斯坦福分析器 - 串輸入規格

的Java edu.stanford.nlp.parser.nndep.DependencyParser -Tlp edu.stanford.nlp.trees.international .pennchinese.ChineseTreebankLanguagePack -trainFile中國/ train.conll -devFile中國/ dev.conll -embedFile中國/ embeddings.txt -embeddingSize 50 -model nndep.chinese.model.txt.gz

在那裏我可以找到這3個文件的規格?

中國/ train.conll - 這是火車文件(規格上它http://ilk.uvt.nl/conll/#dataformat

中國/ dev.conll - 是什麼呢?

chinese/embeddings.txt - 它是什麼?

回答

1

chinese/train.conll,chinese/dev.conll:這些是CoNLL 2006格式的培訓/開發文件,如論文的第4.1節中討論的:http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。 (一般來說,我們沒有權限將數據集分發給其他人。)

chinese/embeddings.txt:這些是使用word2vec進行訓練的單詞嵌入,如同一篇論文的第3.2節所述。