我已經參考了本教程(http://wiki.apache.org/nutch/Nutch2Tutorial)設置Nutch 2.2.1.with Hbase。我已經完成了本教程中提供的設置,但未明確提及如何將數據抓取並存儲到Hbase表中。Nutch 2.2.1設置與hadoop集羣上的HBase
你可以請轉介我一些相關的鏈接/書相同?
我已經參考了本教程(http://wiki.apache.org/nutch/Nutch2Tutorial)設置Nutch 2.2.1.with Hbase。我已經完成了本教程中提供的設置,但未明確提及如何將數據抓取並存儲到Hbase表中。Nutch 2.2.1設置與hadoop集羣上的HBase
你可以請轉介我一些相關的鏈接/書相同?
對我來說最有價值的是這樣的:
http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html
映射到HBase的在這裏被定義NUTCH_HOME/conf目錄/山 - HBase的-mapping.xml。 因此,如果一切配置正確,爬網腳本應該爲您保存它。
我有相同的配置,有很多很多問題要得到它的工作,這裏有一些提示:
提示1:小心表名
我配置也是這些屬性:
<property>
<name>storage.schema.webpage</name>
<value>webpage</value>
</property>
<property>
<name>storage.crawl.id</name>
<value>babu</value>
</property>
當你在腳本中給參數-crawlId寫入簡單的'babu' - > $ CRAWL_ID時,這個配置將抓取數據到hbase的babu_webpage表中。提示2:如果你的表名不好,Nutch仍然在控制檯上寫成功。
提示3:如何簡單看看是否有東西爬在HBase的:
去./bin/hbase外殼
list
scan 'babu_webpage'
我跟着這個tutorial,我跑了Nutch的分度到Elasticsearch沒有問題。文章結尾處的相關信息是六條命令。
bin/nutch inject <seed-url-dir>
bin/nutch generate -topN <n>
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
bin/nutch elasticindex <clustername> -all
我在NUTCH_HOME創建了urls目錄,在這裏我放置了文件seed.txt。在這個文件中是可以抓取的url地址。接下來我把五個命令放到腳本文件中,並將其運行爲不定式循環。如果你只學習你的教程,當然你不必使用最後的命令bin/nutch elasticindex。 topN號碼我坐到了50,因爲數字越大,它有時會卡住。但它只能在我的情況下。
嗨,我有設置Hadoop 0.20.204和hbase 92.x和nutch-2.2.1,我已經看到,hadoop和hbase正常工作,因爲我已經在hbase shell中成功創建了一個表,並插入了值它。 –
但我面臨的問題是,雖然設置Nutch-2.2.1我得到ClassNotFoundException:GoraOutputFormat。但是在$ NUTCH_HOME/runtime/local/lib中,我可以看到包含此類GoraOutputFormat.class的gora-core * .jar。請幫助這一點。我在網上搜索,但找不到任何解決方案。 –
是的我知道地獄與罐子......經過幾次實驗後,我們設置它與這些版本hadoop-core-1.2.0.jar,hbase-0.90.6-cdh3u5.jar,gora-core-0.3.jar,gora- hbase-0.3.jar在NUTCH_HOME/lib中,不要忘記在HBASE_HOME/hbase-0.90.6-cdh3u5.jar中有相同的版本...這是我們唯一能夠一起工作的版本... – Babu