Apache Nutch 2.3.1擴展點在獲取時間

我已成功配置Hadoop（2.x），Hbase和Nutch 2.3.1。我也爬了幾個樣本頁面進行測試。現在我必須使用開源工具cld2專門針對特定語言進行抓取。如果被抓取的文檔不包含該特定語言，那麼不應該保存該文檔（在Hbase中），也不應該索引到Solr。在Nutch WIKI中，在提取時間處沒有擴展點。有沒有其他可行的方法來完成這項工作？Apache Nutch 2.3.1擴展點在獲取時間

來源

2017-09-26 Shafiq

目前Nutch提供的fetchers實現中沒有擴展點。如果你仔細想想，你需要獲取和解析文檔（以提取語言），然後你可以編寫自己的IndexingFilter以檢查文檔的語言，並決定是否索引它。

這應該不是很難自己寫。另一方面，對於Nutch 1.x，我們已經有了這個PR https://github.com/apache/nutch/pull/219，它可以很容易地移植到2.x上，然後你只需要正確的JEXL表達式。

我們已經有了Nutch 2.x附帶的language-identifier插件，您可以看看如何實現並將您自己的與cld2的集成添加爲不同的插件。如果你想使用cld2，那麼你需要編寫一些解析器（以及索引器）來檢測內容中的語言。

來源

2017-09-26 12:42:24

謝謝兄弟。我在索引時間已經實現了語言過濾器。我的問題是，我不得不從Solr（索引）中刪除不包含來自Hbase表（其中原始內容由Nutch在提取時間存儲的文件）的Urdu語言的文檔， – Shafiq

Apache Nutch 2.3.1擴展點在獲取時間

回答

相關問題