2017-07-07 79 views
1

我試圖抓取整個網站,並預計有大量的網址。因此,我將apache nutch crawl中的回合數設置爲5,然後執行爬網。爬網現在是在第3輪,目前仍在獲取網址罰款,但在日誌文件中我看到這樣的:Apache Nutch 2.3.1讀取錯誤

獲取所取出(隊列爬行延遲= 5000毫秒)50/50 spinwaiting URL名稱/主動,949頁,2次失誤,0.2 0頁/秒,26 17 kb/s的,在1個隊列

我怎麼能找出兩個錯誤是什麼 2500網址嗎?我看到數百個被抓取的網址下面有這個錯誤。我使用apache nutch 2.3.1和hbase 0.94。謝謝!

回答

0

檢查您的日誌文件的錯誤,由於您的Internet連接緩慢或超時(最大)問題發生一些錯誤。查看日誌查看詳情