我從freebase下載了最新的數據轉儲 - 它是一個22GB的gzip文件。但是,檔案只包含一個文件,即1.6GB。將Freebase轉儲導入Apache-Jena的問題
特別是,當我用apache-jena(tdbloader)導入壓縮的gz文件時,數據不完整。數據庫中缺少喬治克魯尼。
編輯:這是我看到的時候我檢查轉儲:
我從freebase下載了最新的數據轉儲 - 它是一個22GB的gzip文件。但是,檔案只包含一個文件,即1.6GB。將Freebase轉儲導入Apache-Jena的問題
特別是,當我用apache-jena(tdbloader)導入壓縮的gz文件時,數據不完整。數據庫中缺少喬治克魯尼。
編輯:這是我看到的時候我檢查轉儲:
你不能告訴解壓縮文件有多大用gzip --list
,因爲它是越野車(和記錄這樣它手冊頁)。
我添加了截圖來更好地解釋我自己 – indieman
忽略我的答案。它回答了一個已被編輯的問題,無法識別。 –
像湯姆 - 莫里斯說,
你不能告訴解壓縮文件有多大使用gzip --list,因爲它是越野車(和記錄這樣的男人頁)。 http://www.freebsd.org/cgi/man.cgi?query=gzip#end
問題是Apache-Jena依賴gzip信息來知道何時停止將文件導入數據庫。 freebase網站建議不要解壓檔案,但是由於這個錯誤,你實際上必須這樣做,否則你最終會得到一個不完整的數據庫。我會保留這個問題,因爲別人可能會發現這個信息有用。
這個問題似乎是無關緊要的,因爲它與編程無關。無論實際問題是損壞的數據文件(可疑)還是有問題的Unix實用程序,它都不屬於此處。 –