2015-07-21 249 views
0

我遇到了使用Stanford管線(CoreNLP的最後一個版本)解析BNC的問題。斯坦福CoreNLP - 破折號

有問題的句子摘錄如下,問題是破折號(如果我刪除它,它會通過)。

「......他們一次又一次地做了 - 多年來一次又一次。」

解析器只是陷在這句話中,它甚至不會引發錯誤。在Web界面中正確解析句子。

我試着用分詞器的選項,沒有結果。

我加我使用的命令行: 的java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators記號化,SSPLIT,POS,depparse -tokenize.whitespace假-ssplit.eolonly真-parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -file $ inputfile

有沒有人有關於如何解決這個問題的建議?

非常感謝!

加布裏埃拉

回答

1

與OS X 10.10.4斯坦福CoreNLP v.3.5.2跑,我不能重現此問題。給出的示例字符串解析得很好。

有可能是一個問題,但如果是這樣,它是微妙的,你想同樣給斯坦福NLP版本,操作系統和版本更多的信息,並堅持一個文本文件,不工作的地方下載,以確保問題不會像在網頁上粘貼文本時丟失的行結尾一樣。

+0

非常感謝照顧我的問題! –

+0

我在一臺計算機集羣上使用Stanford Corenlp-3.5.2,該集羣的節點具有Linux 3.0.101-0.47.50。有問題的句子實際上比我最初發布的句子要長:因爲我錯誤地認爲問題出現在破折號中,所以我把它剪成原來的文章。對不起!我已經在以下鏈接上載了相應的.txt文件:http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –

+0

完整的句子也可以在我的Mac上進行處理.... Java的版本是什麼你在跑? Oracle Java 8(構建什麼?)或Linux附帶的OpenJDK版本? –