2012-03-06 53 views
2

我有一個谷歌精煉項目與36k行數據。我想添加另一列從freebase url中獲取json數據。我能夠在一個小的數據集上工作,但是當我在這個項目上運行它時,它花了幾個小時來處理,然後大部分結果都是空白的。儘管我用數據得到了一些結果。有沒有辦法限制數據將被獲取的行數量或更好的方式從網址獲取數據。谷歌優化和提取數據從freebase的大型數據集創建一個URL不工作的列

謝謝!

回答

2

如果您要從Freebase添加數據,最好使用「從Freebase添加列」而不是「通過抓取URL添加列」。

方面是Google功能最強大的功能之一,它們可以用來控制各種事物。在這種情況下,您可以使用一個方面來選擇數據的一個子集,並僅對該子集執行提取操作(然後使用不同的子集進行重複)。

下一個版本的Refine會包含更好的URL抓取結果的錯誤報告來幫助調試這樣的問題,但請確保您尊重遠程站點的所有限制,只要請求總數,每秒請求數等。

相關問題