我已經構建了一個機器人,它可以從根開始抓取網站,解析頁面,保存所有內部鏈接,然後移動到鏈接列表的第一頁,解析它等等。如何處理機器人代碼中的錯誤
我知道它沒有真正優化在PHP中運行這種類型的機器人,但它是我碰巧知道的唯一一種語言,這就是我選擇的語言。
我遇到了各種各樣的問題:頁面返回404,然後頁面被重定向,然後頁面不可分析(少數頁面在分析時返回幾個字的werid大小寫,但發送時返回整個期望的主體GET http請求)等等...
無論如何,我認爲我已經制作出了機器人,因此它可以通過它解析的網頁的99.5%,但是仍然有一些網頁是不可分析的,並且在那時我的機器人崩潰(400中約1頁使機器人崩潰,而我的意思是崩潰,我只是得到一個致命錯誤,代碼剛剛停止)。
現在我的問題是:如何防止這種情況發生?我不是問如何修復一個我甚至不能調試的錯誤(他們大部分時間都是超時,所以不容易調試),我會知道如何處理這些錯誤。如果發生某種類型的錯誤,是否有刷新頁面的方法?有沒有辦法繞過那些致命的錯誤?
我看不出向你展示任何代碼的點,但如果你覺得需要檢查它的某個部分。
謝謝
我認爲一個更好的問題是[如何檢測PHP的400錯誤?](http://bit.ly/1bx7bmZ)。 –
這並不是一個更好的問題,那些讓機器人死機的機會返回200(幾乎95%的時間)。不管怎麼說,還是要謝謝你。 – bastienbot
試試catch塊? – pleasedontbelong