2013-03-08 90 views
2

我很好奇,如果任何人有任何建議,以利用PHP/CURL(或其他技術,甚至)從網站下載內容的最佳方法。現在我正在使用curl_multi一次執行10個請求,這有助於一些請求。curl - 從網站上颳去大量內容

我從字面上需要每天請求大約100K頁,這可能會有點繁瑣(現在需要16個小時)。我最初的想法是設置多個虛擬機並分解任務,但是想知道除了並行化之外是否還有別的東西我不知道。 (我知道你總是可以扔更多的機器在問題嘿)

在此先感謝!

+0

緩存?這取決於你的要求? – 2013-03-08 21:53:46

回答

2

這取決於你在做什麼與內容,但嘗試排隊系統。我建議Resque。它使用Redis來處理隊列。它專爲速度和多個請求同時設計。它還有一個resque-web選項,提供了一個很好的託管用戶界面。

您可以使用一臺機器排隊新的URL,然後您可以有一臺或多臺機器處理隊列。

其他選項:KestrelRabbitMQBeanstalkd

+0

Resque正是我所需要的,它非常完美。非常感謝你! – Geesu 2013-03-08 22:06:13