我遇到了使用Stanford管線(CoreNLP的最後一個版本)解析BNC的問題。斯坦福CoreNLP - 破折號
有問題的句子摘錄如下,問題是破折號(如果我刪除它,它會通過)。
「......他們一次又一次地做了 - 多年來一次又一次。」
解析器只是陷在這句話中,它甚至不會引發錯誤。在Web界面中正確解析句子。
我試着用分詞器的選項,沒有結果。
我加我使用的命令行: 的java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators記號化,SSPLIT,POS,depparse -tokenize.whitespace假-ssplit.eolonly真-parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -file $ inputfile
有沒有人有關於如何解決這個問題的建議?
非常感謝!
加布裏埃拉
非常感謝照顧我的問題! –
我在一臺計算機集羣上使用Stanford Corenlp-3.5.2,該集羣的節點具有Linux 3.0.101-0.47.50。有問題的句子實際上比我最初發布的句子要長:因爲我錯誤地認爲問題出現在破折號中,所以我把它剪成原來的文章。對不起!我已經在以下鏈接上載了相應的.txt文件:http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –
完整的句子也可以在我的Mac上進行處理.... Java的版本是什麼你在跑? Oracle Java 8(構建什麼?)或Linux附帶的OpenJDK版本? –