2011-07-24 87 views
1

我想提取維基百科中所有死人的列表,並比較他們死後的年齡。維基百科中的所有死亡人員都有以下字段填寫:如何從維基百科中提取統計信息?

| birth_name = Thomas Alva Edison 
| birth_date = {{birth date|mf=yes|1847|02|11}} 
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}} 

我將必須做一個爬取器? Wikipedia API中有什麼可以幫助我? 有什麼地方可以開始爬行嗎?任何死去的人的名單?

+0

我找到了我的抓取工具的起始頁面。他們可以類似於http://en.wikipedia.org/wiki/Category:1898_deaths –

回答

1

你可以找到可在這裏下載所有維基百科內容的轉儲:

http://dumps.wikimedia.org/enwiki/latest/

該文件是一個.xml文件大小爲幾個千兆字節,幷包含所有頁面的文本維基百科(除其他外)。您如何處理這取決於您要使用的編程語言。

+0

這是一種選擇。但我認爲我可以比下載和解析這個文件更快地運行爬蟲。 –

+1

啊,既然你已經提到你有抓取工具的起始頁面,那麼可能有一個更快的方法。 – EdoDodo

0

這就是DBpedia適用於所有維基百科數據庫中的結構化數據。在http://dbpedia.org/sparql處嘗試以下查詢:

select distinct ?p, ?d where { 
    ?p a <http://dbpedia.org/ontology/Person> . 
    ?p <http://dbpedia.org/ontology/deathDate> ?d . 
} 
相關問題