2017-06-11 59 views
0

使用斯坦福大學自然語言處理程序,我希望我的文本能夠通過詞法化和共識解決方案。斯坦福大學自然語言處理輸出格式化

因此,對於input.txt文件:「斯坦福大學位於加利福尼亞州,它是一個偉大的大學,成立於1891年。」 我想要output.txt文件:「斯坦福大學位於加利福尼亞州,斯坦福大學是一所偉大的大學,發現於1891年。」

我也在尋找一個表,其中第一列由在文本中識別的名稱實體組成,第二列是他們被識別爲的名稱類。因此,對於上面的例句,這將是這樣的:

第一縱隊二縱 斯坦福位置,組織 加利福尼亞位置

因此,在該表中,名稱實體將僅出現一次。

沒有任何我能夠在網上找到有關操作默認xml輸出或使用NLP直接更改輸入文本文件的信息。你能給我一些關於如何解決這個問題的提示嗎?

+0

爲了吸引更多的人來解決您的問題,您也可以用Java標記標記這個標記。您還應該閱讀本指南,因爲您的問題的措辭幾乎要求社羣爲您編寫代碼(這不是關於什麼的)https://codeblog.jonskeet.uk/2012/11/24/堆棧上溢-問題檢查表/ – Graham

回答

0

如果您正在使用命令行,您可以使用-outputFormat text獲取人類可讀版本或-outputFormat json以獲取json版本。在Java代碼中,您可以使用edu.stanford.nlp.pipeline.StanfordCoreNLP.prettyPrint()edu.stanford.nlp.pipeline.StanfordCoreNLP.jsonPrint()打印註釋。