0
我不想下載250G的freebase數據轉儲。我不需要這麼大的數據。我想提取一小部分數據(一個小域)。這個小子集將使我的迭代更快,更容易。如何爲特定域提取Freebase數據轉儲?
有人能解決我的問題嗎?
我不想下載250G的freebase數據轉儲。我不需要這麼大的數據。我想提取一小部分數據(一個小域)。這個小子集將使我的迭代更快,更容易。如何爲特定域提取Freebase數據轉儲?
有人能解決我的問題嗎?
從夏天的最新(和最後一次)Freebase轉儲低於30GB,而不是250GB。大多數計算機處理壓縮的數據比未壓縮的數據處理速度快,所以在處理之前應該將其壓縮。
zgrep是針對特定模式過濾文本文件的好方法。如果你想變得有趣,你可以使用一個小程序解壓縮數據並搜索符合你的標準的主體實體。
轉儲文件按照主題順序排序,因此給定主題的所有謂詞都將相鄰,從而簡化了處理過程(您只需要緩衝少量數據,同時決定是否在過濾中包含特定主題子集)。
謝謝!我會嘗試! –
你威脅你只想要一些行數 –
一個域數據(比如電影或音樂) –
我想用特殊的域數據來開發一個可視化工具,這個工具可以幫助人們在特定的領域找到信息這是我的畢業論文。 –