2012-12-31 80 views
0

我有一個非常大的HTML表格數據集(最初從維基百科提取)。我想從每個表中提取有意義的tripleSet(這不會與從wikipedia信息框中提取三元組相沖突,這是相對簡單的任務)。提取信息三元組表格

三元組必須在語義上對人類有意義,而不是像DBpedia那樣將三元組提取爲URI和其他格式。所以,我只需提取表格文本值即可。

請記住各種表格方向和形狀。 我看到的主要任務是提取表格記錄的主要實體(例如學校記錄中的學生名稱),以便它可以用作三元組的「主題」。

enter image description here

像這樣的表,我們應該知道的主要實體是「服務器」,而其他人只有目標,所以關係應該是這樣的:

<AOLserver> <Developed by> <NaviSoft>. 
<AOLserver> <Open Source> <Yes>. 
<AOLserver> <Software license> <Mozilla>. 
<AOLserver> <Last stable version> <4.5.1>. 
<AOLserver> <Release date> <2009-02-02>. 

而且,請記住,並非總是主要實體位於表格的第一列,甚至沒有任何表達方式可以討論同一個主題。

這是一個表,其中的主要實體是最後一列不是第一次:

enter image description here

此表產生這樣的關係:

<Arsène Wenger> <Position> <Manager>. 
<Steve Bould> <Position> <Assistant manager> 

問題

我的第一個問題是可以使用基於規則的方法來完成一些規則的例子,並試圖概括,以便我可以檢測到正確的實體?你能建議示例規則嗎?

第二個問題是關於評估,我該如何評估這樣一個系統?我如何衡量我的表現,以便我可以提升它?

回答

1

所以,最後,我已經能夠實現我的項目的目標,它需要大量的的工作和測試,但它已經實現。

想法主要休息在如下所示的管道:

1的分量,以提取的表和它們導入到內存中的對象

2-組分以排除壞表,這些是表格標籤中使用的東西,但它們不是真正的表格(有時一個頁面的作者想要組織數據外觀,所以他們把它們放在一個表格中)

3-一個組件去掉樣式這些表格還可通過重複數據的跨度來解析列/行跨度

4-a基於機器學習的分類器,用於對錶格的方向(水平/垂直)和該表格的標題行/列進行分類。

5-機器學習的分類器的行/列應該是這樣的關係三重<受試者> <謂詞> <對象的「受試者」分類>

第一分類器是支持向量機分類它具有字符計數,表格/行單元格數量比率,數字與文本比例,大寫等功能。 我們在精度和召回率方面都達到了80〜85%左右

第二個分類器是一個隨機森林分類器,它具有與一個行/列內的單元格相關性更相關的特徵。我們在精確度和召回率方面也達到了85%左右。

其他一些細化組件和啓發式參與的過程中,使輸出更加清晰,相關表中的上下文

通常有來自維基百科用來做工具的任何更一般不需要額外的數據網頁上的html表格。但分類器的訓練數據主要偏向於維基百科的內容!

我將在源代碼完成後更新問題代碼。

+1

太棒了 - 很好!很高興看到你的工作 - 一些表格html語義(特別是在阿森納頁面上,顯然被混淆了!) –

1

夢幻般的項目!如果你得到它的工作,def試着把它合併到dbpedias爬行器/提取器 - http://wiki.dbpedia.org/Documentation

僅供參考 - http://en.wikipedia.org/wiki/Comparison_of_web_server_software

如果你看一下HTML,列標題是在THEAD元素,而行都包含在TBODY元素中的TR元素,與實體的標題(/ RDFS :標籤)在第th元素 - 這應該很長的路要解決你的問題,不要太髒和不精確。

我想檢查html結構,看看有多少行有th元素值得評估這種方法。

在第二個例子中(http://en.wikipedia.org/wiki/Arsenal_F.C.)確實沒有一個thead元素幫助ie的事實。 - 允許我們假定頁面本身即。阿森納是表中數據的主題。

也有像維基百科可能HALP闡明關係

我不知道這是所有在維基百科中的表是如何普遍意義的vCard散射微,但應該是一個良好的開端。我會想象它的優越性在於儘可能堅持html結構和微格式,而不是陷入任何過於棘手的問題。

此外 - 每個鏈接都有一個dbpedia uri來標識它,這在這些情況下非常有用。例如。 http://example.com/resource/AOLserverhttp://example.com/property/Serverhttp://dbpedia.org/resource/AOLserverhttp://example.com/resource/AOLserverhttp://example.com/property/Developed_byhttp://dbpedia.org/resource/NaviSofthttp://example.com/property/Developed_by a rdf:Property。 http://example.com/property/Developed_by RDFS:標籤「由開發」 @en

你見過 - http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/ -could產生映射

值得