我創建了一個使用機械化ruby的網絡爬蟲。我將一次運行200k批次,我希望能夠設置一個實例變量,該站點無效,並在get請求返回錯誤時繼續下一個站點。例如,我正在爬取一個網站,當一個http請求被觸發時,它會返回Error 101 (net::ERR_CONNECTION_RESET): The connection was reset.和我的應用程序崩潰。 def crawl
agent
所以我想提交一份簡單的表格,有類似於這樣 "Lots of stuff that doesn't matter
a couple of lines later
agent => A5656,,5665"
一個文本區域的文本區域我試圖做的是採取了行與代理人。順便說一句,這個文件中有很多「代理」行,不是那麼重要。反正這裏是我的代碼: new_agent = @elastix.get https