2012-08-10 14 views
1

因此,我有一個excel表,其中包含大約190000個來自freebase的標題的電影名稱,我想從維基百科獲取來自標題獲取url的信息,這需要很長時間,我離開計算機運行了8個小時,剛剛達到2%。有時我的互聯網被切斷了,我必須從頭開始重新開始。無論如何,我可以一次完成100條記錄,並且一直持續到文件結束,因此如果我的網絡丟失,我可以恢復過程。如何處理大型數據集時獲取谷歌精煉網址?

非常感謝。

回答

1

〜200K抓取可能是您應該開始使用Freebase或Wikipedia批量轉儲的地方。默認的優化提取率間隔爲5000毫秒(即5秒),比大多數Web服務所需的時間長得多。你可能會降低到500毫秒或更少。

你不需要從個人電腦上運行任何東西。您可以使用亞馬遜的EC2或其他服務,具有永久連接和工程設計的正常運行時間。

不幸的是,Refine的「通過提取URL添加列」操作目前無法重新啓動,因此您需要確保您可以完成此操作。如果您無法保證正常運行時間/連接性,您唯一的解決方案是a)以較小的塊進行操作,或b)使用不同的工具。

+0

所以,我想我會做的就是使用紅寶石來分割文件,因爲我仍然認爲谷歌精煉是我的正確工具,我只需要學習如何正確使用它。非常感謝。 :-) – toy 2012-08-11 06:37:47

+1

您可以在Refine中選擇行的子集,而不使用Ruby。其中一種方法是使用row.index <10000的表達式的自定義面(或任何其他您需要的值) – 2012-08-11 15:49:05