2011-02-23 103 views
3

我正在使用wget下載網頁的大量列表(大約70,000)。我被迫在連續的wget之間放置了大約2秒的睡眠時間。這需要大量時間。像70天。我想要做的是使用代理,以便我可以大大加快過程。我正在使用一個簡單的bash腳本來處理這個過程。任何建議和意見,我都讚賞。使用wget優化網頁抓取

回答

3

第一個建議是不使用Bash或wget。我會用Python和美麗的湯。 Wget並不是專爲屏幕抓取而設計的。

通過在每臺機器上運行一部分列表,在多臺機器上分散負載。

由於它聽起來像帶寬是你的問題,你可以很容易地產生一些雲圖像,並把你的腳本扔在那些傢伙。

+0

我下載了美麗的湯。但我不認爲我需要那個。我的瓶頸正在將網頁下載到我的機器中。一旦我有頁面,我可以提取我想要的信息,只需一個grep命令。我是不是很熟悉Python。是否有任何庫來優化實際的數據收集(讓網頁到您的PC)。帶寬不是我的問題。至少不是導致目前問題的問題。我所在的站點爲了防止拒絕服務攻擊(我假設,因此我迫切需要等待)。我可以考慮跨多臺機器或雲部署。 – liv2hak 2011-02-23 00:46:03

+0

那麼我推薦python的另一個原因是,你不必一直執行進程並重新建立連接。一個python腳本可能能夠重用連接,從而更加友好的服務器。 ...我希望你不要做任何壞事:) – 2011-02-23 00:48:46

+0

thanks.will挖入python.and不,我沒有做你認爲我是。 :) – liv2hak 2011-02-23 01:02:24