2014-01-15 68 views

回答

1

對我來說最有價值的是這樣的:

http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html

映射到HBase的在這裏被定義NUTCH_HOME/conf目錄/山 - HBase的-mapping.xml。 因此,如果一切配置正確,爬網腳本應該爲您保存它。

我有相同的配置,有很多很多問題要得到它的工作,這裏有一些提示:

提示1:小心表名

我配置也是這些屬性:

<property> 
    <name>storage.schema.webpage</name> 
    <value>webpage</value> 
</property> 

<property> 
    <name>storage.crawl.id</name> 
    <value>babu</value> 
</property> 

當你在腳本中給參數-crawlId寫入簡單的'babu' - > $ CRAWL_ID時,這個配置將抓取數據到hbase的babu_webpage表中。提示2:如果你的表名不好,Nutch仍然在控制檯上寫成功。

提示3:如何簡單看看是否有東西爬在HBase的:

去./bin/hbase外殼

list 
scan 'babu_webpage' 
+0

嗨,我有設置Hadoop 0.20.204和hbase 92.x和nutch-2.2.1,我已經看到,hadoop和hbase正常工作,因爲我已經在hbase shell中成功創建了一個表,並插入了值它。 –

+0

但我面臨的問題是,雖然設置Nutch-2.2.1我得到ClassNotFoundException:GoraOutputFormat。但是在$ NUTCH_HOME/runtime/local/lib中,我可以看到包含此​​類GoraOutputFormat.class的gora-core * .jar。請幫助這一點。我在網上搜索,但找不到任何解決方案。 –

+0

是的我知道地獄與罐子......經過幾次實驗後,我們設置它與這些版本hadoop-core-1.2.0.jar,hbase-0.90.6-cdh3u5.jar,gora-core-0.3.jar,gora- hbase-0.3.jar在NUTCH_HOME/lib中,不要忘記在HBASE_HOME/hbase-0.90.6-cdh3u5.jar中有相同的版本...這是我們唯一能夠一起工作的版本... – Babu

1

我跟着這個tutorial,我跑了Nutch的分度到Elasticsearch沒有問題。文章結尾處的相關信息是六條命令。

bin/nutch inject <seed-url-dir> 
bin/nutch generate -topN <n> 
bin/nutch fetch -all 
bin/nutch parse -all 
bin/nutch updatedb 
bin/nutch elasticindex <clustername> -all 

我在NUTCH_HOME創建了urls目錄,在這裏我放置了文件seed.txt。在這個文件中是可以抓取的url地址。接下來我把五個命令放到腳本文件中,並將其運行爲不定式循環。如果你只學習你的教程,當然你不必使用最後的命令bin/nutch elasticindex。 topN號碼我坐到了50,因爲數字越大,它有時會卡住。但它只能在我的情況下。