2015-12-08 71 views
0

我不想下載250G的freebase數據轉儲。我不需要這麼大的數據。我想提取一小部分數據(一個小域)。這個小子集將使我的迭代更快,更容易。如何爲特定域提取Freebase數據轉儲?

有人能解決我的問題嗎?

+0

你威脅你只想要一些行數 –

+0

一個域數據(比如電影或音樂) –

+0

我想用特殊的域數據來開發一個可視化工具,這個工具可以幫助人們在特定的領域找到信息這是我的畢業論文。 –

回答

1

從夏天的最新(和最後一次)Freebase轉儲低於30GB,而不是250GB。大多數計算機處理壓縮的數據比未壓縮的數據處理速度快,所以在處理之前應該將其壓縮。

zgrep是針對特定模式過濾文本文件的好方法。如果你想變得有趣,你可以使用一個小程序解壓縮數據並搜索符合你的標準的主體實體。

轉儲文件按照主題順序排序,因此給定主題的所有謂詞都將相鄰,從而簡化了處理過程(您只需要緩衝少量數據,同時決定是否在過濾中包含特定主題子集)。

+0

謝謝!我會嘗試! –