Apache nutch不再爬行

我有一臺兩臺機器集羣。在一臺機器上配置nutch，並在第二個hbase和hadoop上配置。 hadoop處於完全分佈式模式，hbase處於僞分佈式模式。我已經抓取了大約280GB的數據。但現在當我開始爬行時。它提供了以下消息，不抓取任何更多的在上表Apache nutch不再爬行

信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL：org.apache.nutch.crawl.DefaultFetchSchedule

和以下錯誤

錯誤store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b

文件被取出，但他們不會保存在HBase的。但是，如果我抓取新表中的數據，它運作良好，並正常爬取任何錯誤。我認爲這不是一個連接問題，因爲它工作的新表。我認爲這是一些財產等因素。

任何人都可以引導我，因爲我不是apache nutch的專家嗎？

來源

2014-11-24 Shafiq

http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55

Stackoverflow不是一個好的地方問Nutch的問題，把它發送到maillist。在我的印象中，Nutch2.X並不像Nutch1.X那樣可靠。 – 2014-12-03 05:33:50

由於我還面臨類似的問題。實際的問題是區域服務器（Hbase deamon）。因此，請嘗試重新啓動它，因爲它在默認seeting中使用時會關閉，並且數據在hbase中過於突變。有關更多信息，請參閱regionserver的日誌文件。

來源

2014-12-19 07:20:21 HMS

不是我的領域，但看起來像在底層機器上的線程耗盡。

來源

2014-12-03 05:29:30

我必須在確認之前對其進行變更 – Shafiq 2014-12-04 04:41:12

Apache nutch不再爬行

回答

相關問題