2017-09-26 90 views
0

我已成功配置Hadoop(2.x),Hbase和Nutch 2.3.1。我也爬了幾個樣本頁面進行測試。現在我必須使用開源工具cld2專門針對特定語言進行抓取。如果被抓取的文檔不包含該特定語言,那麼不應該保存該文檔(在Hbase中),也不應該索引到Solr。在Nutch WIKI中,在提取時間處沒有擴展點。有沒有其他可行的方法來完成這項工作?Apache Nutch 2.3.1擴展點在獲取時間

回答

0

目前Nutch提供的fetchers實現中沒有擴展點。如果你仔細想想,你需要獲取和解析文檔(以提取語言),然後你可以編寫自己的IndexingFilter以檢查文檔的語言,並決定是否索引它。

這應該不是很難自己寫。另一方面,對於Nutch 1.x,我們已經有了這個PR https://github.com/apache/nutch/pull/219,它可以很容易地移植到2.x上,然後你只需要正確的JEXL表達式。

我們已經有了Nutch 2.x附帶的language-identifier插件,您可以看看如何實現並將您自己的與cld2的集成添加爲不同的插件。如果你想使用cld2,那麼你需要編寫一些解析器(以及索引器)來檢測內容中的語言。

+0

謝謝兄弟。我在索引時間已經實現了語言過濾器。我的問題是,我不得不從Solr(索引)中刪除不包含來自Hbase表(其中原始內容由Nutch在提取時間存儲的文件)的Urdu語言的文檔, – Shafiq