比方說,我createad一個網頁抓取PHP頁面(getdata.php
)即得到由捲曲的特定網站的網頁內容,比保存到一個txt文件或數據庫的一些有用的信息。的getdata.php
如何使網頁抓取頁面連續工作
僞代碼,
min = get latest search id from database
max = 1.000.000 (yes one million different pages)
while (min < max) {
url = "http://www.website.com/page.php?id=".$min
content = getContentFromURL(url)
saveUsefulInfoToDb(content)
min++
set latest search id as min in database
}
這是確定的,該proccess是,
- 打開
getdata.php
瀏覽器的 - 等待
- 還等什麼,因爲有大約100萬頁將被刮掉。
- 等待
- 最後請求超時。
- 失敗
所以,問題是我不知道我怎樣才能使這個proccess合理。在瀏覽器上打開頁面並等待它完成抓取URL,我認爲這是一個非常糟糕的做法。
我怎樣才能使訪問getdata.php可運行在比如cron背景是什麼?
這樣做的最佳方法是什麼?
謝謝。在代碼
set_time_limit(0);
ignore_user_abort(true);
頂部
爲什麼你不能有一個cron工作? –