我有一個非常大的HTML表格數據集(最初從維基百科提取)。我想從每個表中提取有意義的tripleSet(這不會與從wikipedia信息框中提取三元組相沖突,這是相對簡單的任務)。提取信息三元組表格
三元組必須在語義上對人類有意義,而不是像DBpedia那樣將三元組提取爲URI和其他格式。所以,我只需提取表格文本值即可。
請記住各種表格方向和形狀。 我看到的主要任務是提取表格記錄的主要實體(例如學校記錄中的學生名稱),以便它可以用作三元組的「主題」。
例
像這樣的表,我們應該知道的主要實體是「服務器」,而其他人只有目標,所以關係應該是這樣的:
<AOLserver> <Developed by> <NaviSoft>.
<AOLserver> <Open Source> <Yes>.
<AOLserver> <Software license> <Mozilla>.
<AOLserver> <Last stable version> <4.5.1>.
<AOLserver> <Release date> <2009-02-02>.
而且,請記住,並非總是主要實體位於表格的第一列,甚至沒有任何表達方式可以討論同一個主題。
這是一個表,其中的主要實體是最後一列不是第一次:
此表產生這樣的關係:
<Arsène Wenger> <Position> <Manager>.
<Steve Bould> <Position> <Assistant manager>
問題
我的第一個問題是可以使用基於規則的方法來完成一些規則的例子,並試圖概括,以便我可以檢測到正確的實體?你能建議示例規則嗎?
第二個問題是關於評估,我該如何評估這樣一個系統?我如何衡量我的表現,以便我可以提升它?
太棒了 - 很好!很高興看到你的工作 - 一些表格html語義(特別是在阿森納頁面上,顯然被混淆了!) –