Nutch 2.2.1設置與hadoop集羣上的HBase

我已經參考了本教程（http://wiki.apache.org/nutch/Nutch2Tutorial）設置Nutch 2.2.1.with Hbase。我已經完成了本教程中提供的設置，但未明確提及如何將數據抓取並存儲到Hbase表中。Nutch 2.2.1設置與hadoop集羣上的HBase

你可以請轉介我一些相關的鏈接/書相同？

來源

2014-01-15 Rahul Katare

對我來說最有價值的是這樣的：

http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html

映射到HBase的在這裏被定義NUTCH_HOME/conf目錄/山 - HBase的-mapping.xml。因此，如果一切配置正確，爬網腳本應該爲您保存它。

我有相同的配置，有很多很多問題要得到它的工作，這裏有一些提示：

提示1：小心表名

我配置也是這些屬性：

<property> 
    <name>storage.schema.webpage</name> 
    <value>webpage</value> 
</property> 

<property> 
    <name>storage.crawl.id</name> 
    <value>babu</value> 
</property>

當你在腳本中給參數-crawlId寫入簡單的'babu' - > $ CRAWL_ID時，這個配置將抓取數據到hbase的babu_webpage表中。提示2：如果你的表名不好，Nutch仍然在控制檯上寫成功。

提示3：如何簡單看看是否有東西爬在HBase的：

去./bin/hbase外殼

list 
scan 'babu_webpage'

來源

2014-01-21 21:40:02 Babu

嗨，我有設置Hadoop 0.20.204和hbase 92.x和nutch-2.2.1，我已經看到，hadoop和hbase正常工作，因爲我已經在hbase shell中成功創建了一個表，並插入了值它。 –

但我面臨的問題是，雖然設置Nutch-2.2.1我得到ClassNotFoundException：GoraOutputFormat。但是在$ NUTCH_HOME/runtime/local/lib中，我可以看到包含此類GoraOutputFormat.class的gora-core * .jar。請幫助這一點。我在網上搜索，但找不到任何解決方案。 –

是的我知道地獄與罐子......經過幾次實驗後，我們設置它與這些版本hadoop-core-1.2.0.jar，hbase-0.90.6-cdh3u5.jar，gora-core-0.3.jar，gora- hbase-0.3.jar在NUTCH_HOME/lib中，不要忘記在HBASE_HOME/hbase-0.90.6-cdh3u5.jar中有相同的版本...這是我們唯一能夠一起工作的版本... – Babu

我跟着這個tutorial，我跑了Nutch的分度到Elasticsearch沒有問題。文章結尾處的相關信息是六條命令。

bin/nutch inject <seed-url-dir> 
bin/nutch generate -topN <n> 
bin/nutch fetch -all 
bin/nutch parse -all 
bin/nutch updatedb 
bin/nutch elasticindex <clustername> -all

我在NUTCH_HOME創建了urls目錄，在這裏我放置了文件seed.txt。在這個文件中是可以抓取的url地址。接下來我把五個命令放到腳本文件中，並將其運行爲不定式循環。如果你只學習你的教程，當然你不必使用最後的命令bin/nutch elasticindex。 topN號碼我坐到了50，因爲數字越大，它有時會卡住。但它只能在我的情況下。

來源

2015-06-28 21:44:21 32cupo

Nutch 2.2.1設置與hadoop集羣上的HBase

回答

相關問題