2017-10-19 37 views
1

根據這篇文章的標題,我想知道是否有可能使用StanfordCoreNLP獲得選區的文本解析,同時使用預先存在的,可能外在提供的文本標記。我正在用法語寫文章。我猜如果可能的話,只需要包含描述標記的文件就可以了,因爲文本的一個版本可以從這個文件重建。 我想如果有人用java編程並直接使用java類,但由於我不太瞭解java,我想知道這樣的事情是否可以使用命令行指令。 有沒有人知道這樣的事情?是否可以使用StanfordCoreNLP在使用預先存在的標記化時獲取選區解析?

我搜索了谷歌搜索這個問題的答案,並瀏覽了StanfordCoreNLP網站(https://nlp.stanford.edu/),特別是此頁https://nlp.stanford.edu/software/,但沒有找到我要找的東西。在尋找獲取軟件相關信息的方法時,我發現我們被告知在StackOverflow上提出問題。

現在爲了我的問題的精確表述:有沒有一種方法使用StanfordCoreNLP與命令行界面,以獲得用法語寫成的文本的選民分析信息,同時強制StanfordCoreNLP尊重預先存在的,輸入該文本的標記?如果答案是肯定的,我可以在哪裏記錄我自己的這種方式?

編輯: 例子: 我會提供這樣的事情一個例子是在用英文寫的文字完成:

原始文本: «約翰在旅途中去;這很不錯。 »

標記文: «約翰去旅行;這很不錯。 » (這裏,從原始文本的區別是,標點符號被從它們各自的前面的單詞分隔)的文本的

選區解析: «(ROOT(S(NP(NNP約翰))(VP( VBD去了)(PP(IN on)(NP(NP(DT a)(NN trip))(:)(SBAR(WHNP(WDT which))(S(VP(VBD was))(ADJP(RB quite) JJ nice))))))))()。)))»

正如您所看到的,選區解析可以看作是標記化步驟結果的註釋。我現在知道如何使用StanfordCoreNLP套件通過提供原始文本來計算選區分析信息以及其他類型的信息,但我想,爲了實現這一點,StanfordCoreNLP套件將執行自己的標記化步驟。

我想知道是否有辦法強制StanfordCoreNLP套件使用/尊重法語文本的預定義標記。

編輯2:

感謝您的回答。順便說一下,這讓我瞭解瞭如何使用命令行中的「{annotator_name}。{option_name}」格式來參數化在StanfordCoreNLP管道處理過程中使用的不同註釋器;所以下次我可以在瀏覽時更好地瞭解StanfordCoreNLP的文檔。

+0

有幾點意見可以改善您的問題,從而幫助他人回答問題: 1.舉例說明您想實現的目標。 2.寫下你已經嘗試過的方法。 3.總結你想問的問題並把它放在最後。對這個問題要非常具體。 – FacePalm

回答

1

使用tokenize.whitespace選項,並提供由空白標記的文本。該選項只會創建由空格分隔的單詞。

相關問題