2015-05-10 58 views
0

我在一個文本文件中有一組url。對於該文本文件中的每個網址,我想標記包含在該網址中的文本中的實體和關係。用於關係抽取的註釋器

我知道像斯坦福NER,NLTK和GATE這樣的實體標記,它可以執行實體標記。不過,我更關心關係抽取。

爲了提取關係,我正在考慮註釋包含在這些URL中的文本以進行培訓。爲此,我不想做手動註釋。我可以寫出很少的正則表達式來提取我想要的關係,但是這將很難放大。

有沒有一種工具可以指定我想要註釋的內容?

例如:

「羅布工作作爲ABC主任組織他從 XYZ大學畢業。」

在這裏,我想提取隸屬關係關係,所以直觀地我想註釋描述如工作,畢業附屬關係的單詞。通過「文本文件中的一組URL」,我的意思是我在該文本文件中有大約200個鏈接指向特定的網頁,每個網頁都包含一些文本。我想分析(註釋)該文本。

+0

你說的「URL集的平均在一個文本文件「?你能舉個例子嗎?請指定您的答案... –

+0

編輯「一組網址」的定義。請看一看。 – Viper

回答

1

GATE中沒有PR將爲您配對參數並創建實例 。因此,您必須創建與您的問題相關的實例。

您可以:

  • 編寫自定義PR
  • 或寫一些戲言與Java RHS

你可以在訓練和測試數據集可能分裂的語料庫。

您可以利用這些關係Extration柵的培訓課程,包含了所有你需要:

+0

謝謝。確實有幫助。 – Viper

+0

我正在嘗試爲關係提取編寫基於引導的方法。我遇到了Snowball,DIPRE和KnowItAll。我在那裏工作,我認爲這將是相關的在這種情況下。 – Viper