Q

Apache Nutch 2.3.1讀取錯誤

2017-07-07 79 views 1 likes

1

我試圖抓取整個網站，並預計有大量的網址。因此，我將apache nutch crawl中的回合數設置爲5，然後執行爬網。爬網現在是在第3輪，目前仍在獲取網址罰款，但在日誌文件中我看到這樣的：Apache Nutch 2.3.1讀取錯誤

獲取所取出（隊列爬行延遲= 5000毫秒）50/50 spinwaiting URL名稱/主動，949頁，2次失誤，0.2 0頁/秒，26 17 kb/s的，在1個隊列

我怎麼能找出兩個錯誤是什麼 2500網址嗎？我看到數百個被抓取的網址下面有這個錯誤。我使用apache nutch 2.3.1和hbase 0.94。謝謝！

2017-07-07 Walnut_Slayer

A

回答

0

檢查您的日誌文件的錯誤，由於您的Internet連接緩慢或超時（最大）問題發生一些錯誤。查看日誌查看詳情

2017-07-11 06:59:01

相關問題

1. Apache Nutch 2.3.1插件不工作
2. Apache Nutch 2.3.1遠程命令失敗
3. 在Apache Nutch 2.3.1中選取的外部URL獲取
4. Apache Nutch 2.3.1擴展點在獲取時間
5. Nutch 2.3.1僅抓取種子URL
6. Nutch的2.3.1和Solr 6錯誤，而索引
7. Apache Nutch REST api
8. Solr 6和Nutch 2.3.1集成
9. Apache nutch錯誤NoClassDefFoundError「com/google/protobuf/Message」
10. 錯誤：2.3.1

11. Nutch 2.3.1上cassandra無法啓動
12. apache nutch不抓取網站
13. android studio 2.3.1錯誤
14. Apache Nutch 1.12與Apache Solr 6.2.1給出錯誤
15. Nutch的路徑錯誤
16. ActiveMQ與Apache Karaf 2.3.1
17. Windows上的Apache Nutch
18. 與Apache的Nutch 2.2.1
19. Apache nutch不再爬行
20. 運行apache Nutch 2.2.1
21. Nutch中的錯誤NoClassDefFoundError
22. Apache Nutch步驟說明
23. Cassandra讀取錯誤
24. Nutch路徑錯誤
25. Eutch中的Nutch錯誤
26. 如何與Apache Nutch的2.2.1
27. 的Apache的Nutch-2.2.1安裝
28. 如何讓Apache Nutch的抓取永遠
29. Apache Nutch重新啓動抓取
30. 如何讓apache nutch永久爬取