斯坦福CoreNLP - 破折號

我遇到了使用Stanford管線（CoreNLP的最後一個版本）解析BNC的問題。斯坦福CoreNLP - 破折號

有問題的句子摘錄如下，問題是破折號（如果我刪除它，它會通過）。

「......他們一次又一次地做了 - 多年來一次又一次。」

解析器只是陷在這句話中，它甚至不會引發錯誤。在Web界面中正確解析句子。

我試着用分詞器的選項，沒有結果。

我加我使用的命令行：的java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators記號化，SSPLIT，POS，depparse -tokenize.whitespace假-ssplit.eolonly真-parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -file $ inputfile

有沒有人有關於如何解決這個問題的建議？

非常感謝！

加布裏埃拉

來源

2015-07-21 Gabriella Lapesa

與OS X 10.10.4斯坦福CoreNLP v.3.5.2跑，我不能重現此問題。給出的示例字符串解析得很好。

有可能是一個問題，但如果是這樣，它是微妙的，你想同樣給斯坦福NLP版本，操作系統和版本更多的信息，並堅持一個文本文件，不工作的地方下載，以確保問題不會像在網頁上粘貼文本時丟失的行結尾一樣。

來源

2015-07-22 04:18:00

非常感謝照顧我的問題！ –

我在一臺計算機集羣上使用Stanford Corenlp-3.5.2，該集羣的節點具有Linux 3.0.101-0.47.50。有問題的句子實際上比我最初發布的句子要長：因爲我錯誤地認爲問題出現在破折號中，所以我把它剪成原來的文章。對不起！我已經在以下鏈接上載了相應的.txt文件：http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –

完整的句子也可以在我的Mac上進行處理.... Java的版本是什麼你在跑？ Oracle Java 8（構建什麼？）或Linux附帶的OpenJDK版本？ –

斯坦福CoreNLP - 破折號

回答

相關問題