我很好奇,如果任何人有任何建議,以利用PHP/CURL(或其他技術,甚至)從網站下載內容的最佳方法。現在我正在使用curl_multi一次執行10個請求,這有助於一些請求。curl - 從網站上颳去大量內容
我從字面上需要每天請求大約100K頁,這可能會有點繁瑣(現在需要16個小時)。我最初的想法是設置多個虛擬機並分解任務,但是想知道除了並行化之外是否還有別的東西我不知道。 (我知道你總是可以扔更多的機器在問題嘿)
在此先感謝!
我很好奇,如果任何人有任何建議,以利用PHP/CURL(或其他技術,甚至)從網站下載內容的最佳方法。現在我正在使用curl_multi一次執行10個請求,這有助於一些請求。curl - 從網站上颳去大量內容
我從字面上需要每天請求大約100K頁,這可能會有點繁瑣(現在需要16個小時)。我最初的想法是設置多個虛擬機並分解任務,但是想知道除了並行化之外是否還有別的東西我不知道。 (我知道你總是可以扔更多的機器在問題嘿)
在此先感謝!
這取決於你在做什麼與內容,但嘗試排隊系統。我建議Resque。它使用Redis來處理隊列。它專爲速度和多個請求同時設計。它還有一個resque-web
選項,提供了一個很好的託管用戶界面。
您可以使用一臺機器排隊新的URL,然後您可以有一臺或多臺機器處理隊列。
其他選項:Kestrel,RabbitMQ,Beanstalkd
Resque正是我所需要的,它非常完美。非常感謝你! – Geesu 2013-03-08 22:06:13
若要檢索您可以使用捲曲或一個的fsockopen網絡內容。兩種方法的比較可參見Which is better approach between fsockopen and curl?。
緩存?這取決於你的要求? – 2013-03-08 21:53:46