2011-05-20 84 views
4

scraperwiki如何決定停止預定運行?它是基於實際執行時間還是CPU時間?或者也許別的東西。scraperwiki如何限制執行時間?

我颳了一個站點,其中Mechanize需要30s來加載每個頁面,但我使用很少的CPU來處理頁面,所以我想知道服務器的緩慢是否是一個主要問題。

回答

2

CPU時間,而不是掛鐘時間。它基於Linux函數setrlimit。

每個刮板運行的處理時間大約有80秒的限制。之後,在Python和Ruby中,您將得到一個「ScraperWiki CPU超時」異常。在PHP中,它將結束「由SIGXCPU終止」。

在很多情況下,這種情況發生在您第一次抓取網站時,趕上現有數據的積壓。處理它的最好方法是讓你的刮板一次使用save_var和get_var函數(請參閱http://scraperwiki.com/docs/python/python_help_documentation/)來記住你的位置。

這也讓你更容易從其他解析錯誤中恢復。

相關問題