4
我的網頁搜索沒有發現任何有用的東西,也許沒有人做到這一點。雖然我已經完成了一些處理freebase轉儲和rdf和arangodb的工作,但我的經驗仍然非常有限,我希望聽到關於該主題的意見/建議/經驗。將Freebase轉儲(部分)載入ArangoDb
有幾件事情我想了解一下:
- 有沒有人進口遊離鹼轉儲到ArangoDb?
- 有沒有一種工具可以幫助實現這個目標?
- 什麼是手動執行此操作的策略?
- 或者這可能只是一個壞主意,不應該這樣做?
一些我會期待的挑戰是:
- 沒有排序保證在RDF數據(據我所知)。假設我對某個人感興趣,並且/ people/person實例引用的某些信息出現在實際人員的轉儲中 - 那麼我需要第二次通過轉儲才能找到此參考信息
- 以條款在存儲數據時,可以爲每個類型創建一個集合並在它們之間添加引用或者保存所關注的頂層類型中的所有屬性(根據模式,從OO角度來看,包含/ common/topic - 可以實現多個遺傳,這可能是選擇性的(java)不支持)
- 可能必須至少兩次通過轉儲,一次收集並存儲實體及其屬性,另一次將圖形邊緣之間添加他們)
更新
目前,我走線槽轉儲幾次。其步驟大體如下:
- 拆分的28GB的gzip(250GB未壓縮)成更小的gzip文件5M線,這導致約550文件
- 走線槽每個文件中,查找三元組聲明某種類型並將每個類型的主題(freebase命名空間+ mid)存儲在一個文件中我感興趣
- (a)再次遍歷每個文件,因爲我現在知道mids,我可以組裝完整的對象。這些內容儘可能保留在內存中,但是仍然保留在磁盤上,每個對象有一個json文件(我們無法確定對象是否完整,直到整個轉儲處理完畢)
- 轉到磁盤上的所有文件,將它們加載到arangodb中
它可以工作,但速度很慢,並且幾次撞擊我都很低效。 (a)我們發現更多與我感興趣的核心實體相關的實體。
並且向freebase api提出數百萬的請求贏得了'要好得多。
這就是爲什麼我對這個話題感興趣,並且如果有預先制定的解決方案,那會很好。
維基百科轉儲非常不同,每個頁面有一個xml節點,並且freebase位於RDF(大約2.7億個三元組)中。請參閱原始帖子的更新。 – stackmagic 2014-11-25 09:16:33