我想開發一個抓取工具來抓取youtube.com
並解析元信息(標題,描述,出版商等)並將其存儲到Hbase /其他存儲系統中。我明白我必須編寫插件來實現這一點。但我很困惑我需要爲此編寫哪些插件。我與這四檢查 -解析並存儲使用Apache Nutch
Parser
ParserFilter
Indexer
IndexFilter
要解析的YouTube頁面特殊元數據信息,我是否需要寫一個自定義的解析器插件或ParseFilter插件使用parse-html
插件相處?
解析後,要將條目存儲在Hbase /其他存儲系統中,是否需要編寫IndexWriter插件?通過索引,我們通常會理解Solr,ElasticSearch等中的索引。但是我不需要在任何搜索引擎中明顯地進行索引。那麼,如何在解析後將它們存儲在某些商店中,並說Hbase呢?
在此先感謝!
現在問題已經很老了,我已經做了你最近在這裏提出的建議。感謝您的詳細解答。 –
對不起,延遲響應:) –
嗨@JorgeLuis你能回答這個問題嗎? http://stackoverflow.com/questions/43993032/generate-only-unfetched-urls-instead-of-scored-nutch-2-3 –