2013-07-04 104 views
-2

我試圖導入freebase rdf到谷歌精煉但得到一個錯誤....但現在如何提取主題名稱與明顯的類型從18 gb rdf到csv等....任何gui工具?導入rdf時出現錯誤

+0

你得到了什麼錯誤?爲什麼它必須是一個GUI工具?如果你想要的是顯着的類型和名稱,我會想到一個簡單的一行grep命令會爲你做。 –

+0

它不是在谷歌導入精煉(* .gz大小:18 GB和未壓縮的大小:146 GB)....但是什麼和在哪裏鍵入command..im不是Linux用戶.... – user2216267

+0

單行grep命令? – user2216267

回答

2

146 GB對於OpenRefine(ex-Google Refine)來說太大而無法處理。如果有一個GUI工具可以做到這一點,我不熟悉它,但由於這是一個編程問題,我將給出一個shell編程解決方案。你不需要知道任何關於Linux的知識,但是你需要知道如何使用Unix shell命令(你可以在Windows上使用Cygwin)。

curl -L http://download.freebaseapps.com | gunzip | egrep 'notable_for|notable_type|rdfs:label' 

將爲您提供組裝解決方案所需的所有原始數據。包含關鍵信息的行看起來像這樣,但如果您只想使用標籤/名稱,則需要將它們替換爲第一個和最後一個柱中的主題/對象ID。

ns:m.01nsxs2 ns:common.topic.notable_types ns:m.0kpv17. 
+0

我運行了你提供的命令..但是如何獲得帶有主題名和明顯類型的明文,例如:(Gmail:Software)在csv中?..目前它給: 'ns:g.1254yxnny ns:common。 notable_for.display_name「Zeneszám」@hu。 ns:g.1254yxnny ns:common.notable_for.display_name「Utwórmuzyczny」@pl。 ns:g.1254yxnny ns:common.notable_for.display_name「Nummer(muziek)」@ nl。 ns:g.1254yxnny ns:common.notable_for.display_name「用戶名」@ hi.' – user2216267

+0

需要幫助先生? – user2216267