如何處理大型數據集時獲取谷歌精煉網址？

因此，我有一個excel表，其中包含大約190000個來自freebase的標題的電影名稱，我想從維基百科獲取來自標題獲取url的信息，這需要很長時間，我離開計算機運行了8個小時，剛剛達到2％。有時我的互聯網被切斷了，我必須從頭開始重新開始。無論如何，我可以一次完成100條記錄，並且一直持續到文件結束，因此如果我的網絡丟失，我可以恢復過程。如何處理大型數據集時獲取谷歌精煉網址？

非常感謝。

來源

2012-08-10 toy

〜200K抓取可能是您應該開始使用Freebase或Wikipedia批量轉儲的地方。默認的優化提取率間隔爲5000毫秒（即5秒），比大多數Web服務所需的時間長得多。你可能會降低到500毫秒或更少。

你不需要從個人電腦上運行任何東西。您可以使用亞馬遜的EC2或其他服務，具有永久連接和工程設計的正常運行時間。

不幸的是，Refine的「通過提取URL添加列」操作目前無法重新啓動，因此您需要確保您可以完成此操作。如果您無法保證正常運行時間/連接性，您唯一的解決方案是a）以較小的塊進行操作，或b）使用不同的工具。

來源

2012-08-11 04:14:51

所以，我想我會做的就是使用紅寶石來分割文件，因爲我仍然認爲谷歌精煉是我的正確工具，我只需要學習如何正確使用它。非常感謝。 :-) – toy 2012-08-11 06:37:47

您可以在Refine中選擇行的子集，而不使用Ruby。其中一種方法是使用row.index <10000的表達式的自定義面（或任何其他您需要的值） – 2012-08-11 15:49:05

如何處理大型數據集時獲取谷歌精煉網址？

回答

相關問題