我有一臺兩臺機器集羣。在一臺機器上配置nutch,並在第二個hbase和hadoop上配置。 hadoop處於完全分佈式模式,hbase處於僞分佈式模式。我已經抓取了大約280GB的數據。但現在當我開始爬行時。它提供了以下消息,不抓取任何更多的在上表Apache nutch不再爬行
信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL:org.apache.nutch.crawl.DefaultFetchSchedule
和以下錯誤
錯誤store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b
文件被取出,但他們不會保存在HBase的。 但是,如果我抓取新表中的數據,它運作良好,並正常爬取任何錯誤。我認爲這不是一個連接問題,因爲它工作的新表。我認爲這是一些財產等因素。
任何人都可以引導我,因爲我不是apache nutch的專家嗎?
http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55
Stackoverflow不是一個好的地方問Nutch的問題,把它發送到maillist。在我的印象中,Nutch2.X並不像Nutch1.X那樣可靠。 – 2014-12-03 05:33:50