2012-07-24 55 views
4

我在玩dbpedia download page提供的不同數據集,發現它有點過時。從實時dbpedia轉儲生成不同的數據集

然後我從dbpedia live網站下載了最新的轉儲。當我提取6月30日的文件時,我剛剛獲得了一個巨大的37GB .nt文件。

我想從最近的轉儲中獲取不同的數據集(如下載頁面上提供的不同的.nt文件)。有腳本或流程去做嗎?

+0

如果你想得到最新的維基百科數據,那麼這個鏈接可能有助於http://en.wikipedia.org/wiki/Wikipedia:Database_download。你可以找到數據庫轉儲http://dumps.wikimedia.org/。不知道這是你想要的,但它可能是有用的。 – 18bytes 2012-07-24 07:03:38

+0

@devsundar我更喜歡DBPedia,因爲它爲您提供了維基百科數據集中的結構化信息,並且更容易使用,因爲它們已經在其上提取了。無論如何,謝謝你提到它。 – Sudar 2012-07-24 07:10:09

回答

1

解決方案1:

您可以使用DBpedia中提取直播。 https://github.com/dbpedia/extraction-framework。 您需要配置適當的提取器(例如:信息框屬性提取器,抽象提取器..等)。它將下載最新的維基百科轉儲並生成dbpedia數據集。

您可能需要進行一些代碼更改才能獲取所需的數據。我的一位同事爲德國數據集做了這件事。你仍然需要大量的磁盤空間。

解決方案2(我不知道是否真的有可能或沒有。):

做一個grep命令對數據集所需的性能。您需要知道您想要獲取的屬性的確切URI。

例如:爲了讓所有的主頁: bzgrep 'http://xmlns.com/foaf/0.1/homepage' dbpedia_2013_03_04.nt.bz2> homepages.nt

它會給你所有的N-Triples與網頁。您可以將其加載到rdf商店中。