1
A
回答
0
默認情況下,Hbase不理解存儲哪種類型的數據。我想你可以在HBase shell中使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb)從網頁表中提取數據。
0
可以使用Nutch的dump命令
下面是語法:
例子:
bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
0
正如你當然知道,抓取數據存儲在段。實際上,你可以使用提取readseg命令(例如)這些數據:
bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir
其中my_dump_dir是你的目錄,這將創建幷包含轉儲。
然後在你的my_dump_dir你會發現兩個文件:轉儲(包含抓取和分析數據 - non_encoded),並.dump.crc(我猜一些二進制)。他們用任何文本編輯器查看轉儲並查看結構。如果你需要,你也可以解析它。
相關問題
- 1. 使用CrawlDbReader讀取Nutch抓取數據
- 2. 如何使用豬腳本從網絡抓取的數據中提取特定數據(nutch)
- 3. 我如何使用nutch從hbase抓取數據
- 4. 如何使用apache nutch在少數主題上抓取數據?
- 5. 如何查看由使用solr的nutch抓取的數據?
- 6. 如何使用Nutch抓取和解析精確的數據?
- 7. 如何從XML中提取數據,然後提取數據
- 8. 如何抓取Twitter數據
- 9. 如何從網頁上抓取數據?
- 10. 如何從網站上抓取數據
- 11. 從URL抓取數據Php
- 12. 從UIWebView抓取POST數據
- 13. 從網站抓取數據
- 14. 從ASP.NET webForm抓取數據
- 15. 從網站抓取數據
- 16. php從javascript抓取數據
- 17. 數據抓取從LinkedIn
- 18. 從nutch重點抓取
- 19. 在nutch抓取/分段文件夾中查看數據
- 20. 抓取並從xpath表中提取數據
- 21. 如何抓取Nutch中的圖像?
- 22. JTable:抓取數據?
- 23. Python數據抓取
- 24. PHP - 數據抓取
- 25. 如何從包含循環的函數中抓取數據
- 26. scrapy/Python抓取但不抓取數據
- 27. 從Excel數據庫中提取數據
- 28. 從Amazon SNS數據中提取數據
- 29. 從數據包中提取XML數據
- 30. 從數據對象中提取數據