我在一個文本文件中有一組url。對於該文本文件中的每個網址,我想標記包含在該網址中的文本中的實體和關係。用於關係抽取的註釋器
我知道像斯坦福NER,NLTK和GATE這樣的實體標記,它可以執行實體標記。不過,我更關心關係抽取。
爲了提取關係,我正在考慮註釋包含在這些URL中的文本以進行培訓。爲此,我不想做手動註釋。我可以寫出很少的正則表達式來提取我想要的關係,但是這將很難放大。
有沒有一種工具可以指定我想要註釋的內容?
例如:
「羅布工作作爲ABC主任組織他從 XYZ大學畢業。」
在這裏,我想提取隸屬關係關係,所以直觀地我想註釋描述如工作,畢業附屬關係的單詞。通過「文本文件中的一組URL」,我的意思是我在該文本文件中有大約200個鏈接指向特定的網頁,每個網頁都包含一些文本。我想分析(註釋)該文本。
你說的「URL集的平均在一個文本文件「?你能舉個例子嗎?請指定您的答案... –
編輯「一組網址」的定義。請看一看。 – Viper