2015-10-23 66 views
0

我們目前在斯坦福分析器中使用NNDEP分析器來處理中文數據,期望獲得有用的語法樹。下面是我們用來設置參數:如何在斯坦福分析器中使用NNDEP分析器來處理中文數據

java -cp "./*" edu.stanford.nlp.parser.nndep.DependencyParser -language chinese -model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz -tagger.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger -escaper edu.stanford.nlp.trees.international.pennchinese.ChineseEscaper -textFile INPUT_FILE 

但是,輸出並不像紙Discriminative reordering with Chinese grammatical relations features描述的語法關係相同。如果我們有兩句話:1。我把他打了,2,我打了他,我們得到的結果如下:

SUB(把-2, 我-1) 
    root(ROOT-0, 把-2) 
    SUB(打了。-4, 他-3) 
    VMOD(把-2, 打了。-4) 


    SUB(打了-2, 我-1) 
    root(ROOT-0, 打了-2) 
    OBJ(打了-2, 他。-3) 

這類似於從默認的英語語法分析器輸出的結果。

我們參考了手冊並閱讀source code,我們找不到任何線索。因此,有誰能讓我們知道如何設置正確的參數來正確處理中文數據?非常感謝!

+0

你好,請你給我一箇中文例句和你希望看到的解析,我會進一步研究!謝謝! – StanfordNLPHelp

+0

@stanfordNLPHelp感謝您的回覆。如果我們有一個像'我打了他'這樣的句子,我們期望得到一個結果爲'NSUBJ(打了-2,我-1)root(ROOT-0,打了-2)DOBJ(打了-2,他 - 3)「根據中國語法關係論文[與中國語法關係特徵進行歧視性重新排序](http://www.aclweb.org/anthology/W09-2307) – acepor

回答

0

該命令將產生在該紙中引用的依賴關係:

java -Xmx6g -cp "*:." -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -file sample_chinese_text.txt -props StanfordCoreNLP-chinese.properties -outputFormat text -parse.originalDependencies 

的關鍵是使用「解析」註釋器,而不是「depparse」。

注意:StanfordCoreNLP-chinese.properties可以在stanford-corenlp-3.5.2-models-chinese.jar或stanford-chinese-corenlp-2015-04-20-models.jar中找到,如果你想考試設置

注意:我們發佈了一些與「解析」註釋器一起工作的模型,它們可以在Maven的stanford-parser-3.5.2-models.jar中找到,或者使用標準解析器:

http://nlp.stanford.edu/software/lex-parser.shtml

這裏的問題是,NN依賴解析器不輸出斯坦福依存關係茅根你指的是紙引用本身,神經網絡依賴解析器使用不同類型的依賴

這裏有一些相關的論文是討論一下NN依賴解析器創建:

http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf

http://stp.lingfil.uu.se/nodalida/2007/pdf/NODALIDA16.pdf

+0

非常感謝!實際上,我們之前嘗試過CoreNLP包中的解析器,並且解析器的解析速度與我們的預期不符。這就是爲什麼我們改爲NN依賴關係解析器。因此,目前的問題是,如果我們仍然想使用神經網絡解析器,我們是否可以自己對漢語語法關係模型進行訓練?或者我們是否需要更改NN解析器的代碼以滿足我們的需要?謝謝。 – acepor

+0

如果你把數據放在CoNLL格式中,你應該能夠訓練你自己的模型;以下鏈接提供了一些詳細信息:http://nlp.stanford.edu/software/nndep.shtml – StanfordNLPHelp