誤差與Nutch的

2013-04-23 68 views 1 likes

我試圖抓取網站使用Nutch爬行，並得到這個錯誤：誤差與Nutch的

java.net.MalformedURLException: no protocol: 
    Exception in thread "main" java.io.IOException: Job failed! 
      at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 
      at org.apache.nutch.crawl.Injector.inject(Injector.java:296) 
      at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
      at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
      at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

來源

2013-04-23 goodi

回答

檢查種子列表。運行噴油器作業時發生此錯誤。可能是由於你的種子列表。您的種子網址如下：http://www.example.com。您必須將協議添加爲「http //」。

來源

2013-04-27 23:56:34 cguzel

感謝您的回答，這是工作，但現在我得到這個錯誤：線程「主」的異常java.io.IOException：作業失敗！ at org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:1265） at org.apache.nutch.crawl.Injector.inject（Injector.java:296） at org.apache.nutch.crawl。 Crawl.run（Crawl.java:127） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:65） at org.apache.nutch.crawl.Crawl.main（Crawl.java:55）現在問題在哪裏？ – goodi 2013-04-28 07:38:10

你用什麼存儲（hbase，cassandra或mysql）？檢查你的配置。（如hbase-site.xml ...） – cguzel 2013-04-28 15:11:36

檢查Hadoop日誌。你可以看到更詳細的問題。 – cguzel 2013-04-28 15:14:18

相關問題

11. 誤差與蟒
12. 誤差與GGPLOT2
13. Nutch的錯誤tika.TikaParser Eclipse的
14. Nutch路徑錯誤
15. 如何與Apache Nutch的2.2.1
16. nutch eclipse的錯誤信息
17. Nutch的路徑錯誤
18. Eutch中的Nutch錯誤
19. Nutch中的錯誤NoClassDefFoundError
20. Oauthcallback誤差與Twitter
21. 誤差與流動
22. com.jcraft.jsch.ChannelSftp.throwStatusError誤差與AWS
23. 誤差與升壓
24. 誤差與日食
25. 誤差與火力
26. 誤差與按鈕
27. 誤差在HBase的與ImportTsv
28. 引起的誤差與libstdC++
29. Matlab的誤差與nlinfit
30. 誤差與地圖的toString