2014-07-08 64 views
0

我從freebase下載了最新的數據轉儲 - 它是一個22GB的gzip文件。但是,檔案只包含一個文件,即1.6GB。將Freebase轉儲導入Apache-Jena的問題

特別是,當我用apache-jena(tdbloader)導入壓縮的gz文件時,數據不完整。數據庫中缺少喬治克魯尼。

編輯:這是我看到的時候我檢查轉儲:

enter image description here

+0

這個問題似乎是無關緊要的,因爲它與編程無關。無論實際問題是損壞的數據文件(可疑)還是有問題的Unix實用程序,它都不屬於此處。 –

回答

2

你不能告訴解壓縮文件有多大用gzip --list,因爲它是越野車(和記錄這樣它手冊頁)。

http://www.freebsd.org/cgi/man.cgi?query=gzip#end

+0

我添加了截圖來更好地解釋我自己 – indieman

+0

忽略我的答案。它回答了一個已被編輯的問題,無法識別。 –

1

像湯姆 - 莫里斯說,

你不能告訴解壓縮文件有多大使用gzip --list,因爲它是越野車(和記錄這樣的男人頁)。 http://www.freebsd.org/cgi/man.cgi?query=gzip#end

問題是Apache-Jena依賴gzip信息來知道何時停止將文件導入數據庫。 freebase網站建議不要解壓檔案,但是由於這個錯誤,你實際上必須這樣做,否則你最終會得到一個不完整的數據庫。我會保留這個問題,因爲別人可能會發現這個信息有用。