0
我修改了一個基本的網絡爬蟲來收集一個網站的鏈接列表,這可能會遇到數千個。我遇到的問題是腳本超時一次我嘗試通過瀏覽器在上一個問題中提到的問題上運行它。我問,同時運行許多進程的腳本也可能會遇到問題,從而導致我在運行該服務器時遇到問題。php script超時
我將如何得到有關解決這些問題,或者我應該去同一個開源爬蟲如果是這樣,其履帶我應該去,因爲我無法找到任何具體的不夠,因爲phpDig網站宕機:/
我修改了一個基本的網絡爬蟲來收集一個網站的鏈接列表,這可能會遇到數千個。我遇到的問題是腳本超時一次我嘗試通過瀏覽器在上一個問題中提到的問題上運行它。我問,同時運行許多進程的腳本也可能會遇到問題,從而導致我在運行該服務器時遇到問題。php script超時
我將如何得到有關解決這些問題,或者我應該去同一個開源爬蟲如果是這樣,其履帶我應該去,因爲我無法找到任何具體的不夠,因爲phpDig網站宕機:/
如果您需要能夠從一個Web界面按需運行它,然後考慮使用Gearman甚至unix at
command它添加到隊列在後臺運行。
恰巧,我已經寫了Linux的at
作業隊列,這是available from my github account你應該選擇走這條路線的PHP wrapping class。
無論您要使用哪種腳本,唯一現實的方法是將爬行程序放入後臺(使用cron作業)。 – Wukerplank 2011-04-13 11:48:47