2014-11-24 120 views
1

我有一臺兩臺機器集羣。在一臺機器上配置nutch,並在第二個hbase和hadoop上配置。 hadoop處於完全分佈式模式,hbase處於僞分佈式模式。我已經抓取了大約280GB的數據。但現在當我開始爬行時。它提供了以下消息,不抓取任何更多的在上表Apache nutch不再爬行

信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL:org.apache.nutch.crawl.DefaultFetchSchedule

和以下錯誤

錯誤store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b

文件被取出,但他們不會保存在HBase的。 但是,如果我抓取新表中的數據,它運作良好,並正常爬取任何錯誤。我認爲這不是一個連接問題,因爲它工作的新表。我認爲這是一些財產等因素。

任何人都可以引導我,因爲我不是apache nutch的專家嗎?

+0

http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55

+0

Stackoverflow不是一個好的地方問Nutch的問題,把它發送到maillist。在我的印象中,Nutch2.X並不像Nutch1.X那樣可靠。 – 2014-12-03 05:33:50

回答

0

由於我還面臨類似的問題。實際的問題是區域服務器(Hbase deamon)。因此,請嘗試重新啓動它,因爲它在默認seeting中使用時會關閉,並且數據在hbase中過於突變。有關更多信息,請參閱regionserver的日誌文件。

0

不是我的領域,但看起來像在底層機器上的線程耗盡。

+0

我必須在確認之前對其進行變更 – Shafiq 2014-12-04 04:41:12