2015-09-18 23 views
2

考慮下面的文字複製代詞(代詞):如何與他們的來路

「病人:很好,和電影是迷人的它被稱爲第一使者,它是關於林肯 - 它是基於我想是在一本書上,但是這是關於林肯在他8歲的時候,整部電影都是在那個時候發生的,而在那段時間 - 我的意思是他一定是八九歲,他的母親死於某種疾病,這個,他有一個表弟,表哥的父母死了,所以表弟和他一起生活,堂兄的聲音我 - 堂兄講述了故事,你很少聽到林肯說話,呃,你瞭解了和他父親的關係,而且 - 他的父親讓他們找到了一個妻子,然後帶着一個妻子和幾個孩子回來。「

我需要複製「他,她,我,他們......」的提及與他們的實際前件。當我用斯坦福coref。決議,它給了我許多沒有用的東西,如「他的父親」,「他的父親」,甚至「他的父親」,「他的」。我需要的文字有「林肯的父親」或「林肯的母親」。我有一個提到的列表: [619,625] = [647,653],[565,575] = [588,598],[565,575] = [588,591] ..... 我可以以醜陋的編程方式解決這個問題,但我想知道是否有任何方法或方法來清除額外的提及或一種幫助將實際名稱替換爲代詞的方法?

回答

3

據我所知,在CoreNLP中沒有一種乾淨的方法可以用它的規範提及代替代名詞。這至少部分是由於設計:這種替換在一般情況下會產生一系列令人討厭的細微差別:例如,「原始文本」註釋是否應該改變?角色偏移應該改變嗎?你能恢復原來的句子嗎?

當我們有需要此,我們已經附接附加的註釋(稱爲,例如,AntecedentAnnotation)在共參照鏈一提的令牌,指向規範提。您可以使用getRepresentativeMention()函數獲得規範提及。

+0

是的我有一個解決方案的偏移量變化。您可以根據提及的偏移量進行降序排序,並從尾部向文本頭部進行更改。這樣,任何更改都不會影響以前的偏移量。我使用代表性的提及方法,但它仍然給我一些混亂... – user3147590

+0

@Christopher曼寧我希望你有這個問題的答案....你的反應將是最感謝 – user3147590

+0

什麼是問題?您是否建議我們在CoreNLP中編寫一個函數來執行此操作,或者您是否在問您的註釋中的方法是否有效? –

相關問題