2011-02-16 56 views
0

我已經寫了一個使用PHP/cURL的刮板,它工作很好,但在cURL的瓶頸。 AFAIK沒有辦法提高cURL的速度,但我已經閱讀了其他速度更快的語言/庫。任何人都有這方面的經驗,我希望有什麼改進?對於任何低於25%的東西來說,這可能不值得麻煩。替代語言/庫,以提高網絡刮板的速度

另一種選擇可能是並行cron作業?

+1

您確定瓶頸是捲曲庫 - 而不是遠程請求本身? –

+0

代碼會很好 –

回答

1

curl on php非常快。您應該着手使用curl_multi並行運行您的請求。

如果您通過fiddler運行刮板,您將看到99%的時間正在等待遠程請求。

您需要試驗一下,看看有多少個並行請求爲您提供最佳性能。它會因網站而異。有時如果網站寫得很差(在數據庫緩慢的服務器上沒有索引等),網站的執行速度會變慢。

我寫了一個web scraping framework,爲你做了很多這個。看一看,竊取codez;學習一些新技術。