從實時dbpedia轉儲生成不同的數據集

我在玩dbpedia download page提供的不同數據集，發現它有點過時。從實時dbpedia轉儲生成不同的數據集

然後我從dbpedia live網站下載了最新的轉儲。當我提取6月30日的文件時，我剛剛獲得了一個巨大的37GB .nt文件。

我想從最近的轉儲中獲取不同的數據集（如下載頁面上提供的不同的.nt文件）。有腳本或流程去做嗎？

2012-07-24 Sudar

如果你想得到最新的維基百科數據，那麼這個鏈接可能有助於http://en.wikipedia.org/wiki/Wikipedia:Database_download。你可以找到數據庫轉儲http://dumps.wikimedia.org/。不知道這是你想要的，但它可能是有用的。 – 18bytes 2012-07-24 07:03:38

@devsundar我更喜歡DBPedia，因爲它爲您提供了維基百科數據集中的結構化信息，並且更容易使用，因爲它們已經在其上提取了。無論如何，謝謝你提到它。 – Sudar 2012-07-24 07:10:09

解決方案1：

您可以使用DBpedia中提取直播。 https://github.com/dbpedia/extraction-framework。您需要配置適當的提取器（例如：信息框屬性提取器，抽象提取器..等）。它將下載最新的維基百科轉儲並生成dbpedia數據集。

您可能需要進行一些代碼更改才能獲取所需的數據。我的一位同事爲德國數據集做了這件事。你仍然需要大量的磁盤空間。

解決方案2（我不知道是否真的有可能或沒有。）：

做一個grep命令對數據集所需的性能。您需要知道您想要獲取的屬性的確切URI。

例如：爲了讓所有的主頁： bzgrep 'http://xmlns.com/foaf/0.1/homepage' dbpedia_2013_03_04.nt.bz2> homepages.nt

它會給你所有的N-Triples與網頁。您可以將其加載到rdf商店中。

來源

2013-04-26 16:23:15 vinod

從實時dbpedia轉儲生成不同的數據集

回答

相關問題