我已成功配置Hadoop(2.x),Hbase和Nutch 2.3.1。我也爬了幾個樣本頁面進行測試。現在我必須使用開源工具cld2專門針對特定語言進行抓取。如果被抓取的文檔不包含該特定語言,那麼不應該保存該文檔(在Hbase中),也不應該索引到Solr。在Nutch WIKI中,在提取時間處沒有擴展點。有沒有其他可行的方法來完成這項工作?Apache Nutch 2.3.1擴展點在獲取時間
0
A
回答
0
目前Nutch提供的fetchers實現中沒有擴展點。如果你仔細想想,你需要獲取和解析文檔(以提取語言),然後你可以編寫自己的IndexingFilter
以檢查文檔的語言,並決定是否索引它。
這應該不是很難自己寫。另一方面,對於Nutch 1.x,我們已經有了這個PR https://github.com/apache/nutch/pull/219,它可以很容易地移植到2.x上,然後你只需要正確的JEXL表達式。
我們已經有了Nutch 2.x附帶的language-identifier
插件,您可以看看如何實現並將您自己的與cld2的集成添加爲不同的插件。如果你想使用cld2,那麼你需要編寫一些解析器(以及索引器)來檢測內容中的語言。
相關問題
- 1. Apache Nutch 2.3.1讀取錯誤
- 2. 在Apache Nutch 2.3.1中選取的外部URL獲取
- 3. Apache Nutch 2.3.1插件不工作
- 4. Apache Nutch 2.3.1遠程命令失敗
- 5. Nutch 2.3.1僅抓取種子URL
- 6. 如何擴展Nutch文章抓取
- 7. Solr 6和Nutch 2.3.1集成
- 8. Apache Nutch REST api
- 9. Nutch 2.3.1上cassandra無法啓動
- 10. apache nutch不抓取網站
- 11. 如何在nutch中獲得文件擴展名?
- 12. 獲取父擴展在PHP
- 13. Apache Nutch步驟說明
- 14. 獲取Chrome擴展
- 15. 更新Nutch獲取獲取的每個URL的父節點
- 16. ActiveMQ與Apache Karaf 2.3.1
- 17. 運行apache Nutch 2.2.1
- 18. 按鈕獲取擴展時使用flexbox
- 19. apache nutch在生成階段需要很長的時間
- 20. Firefox擴展:獲取點擊數據時上下文菜單
- 21. 獲取Youtube Video for Chrome擴展程序的持續時間
- 22. 獲取Apache HTTP服務器以填寫文件擴展名
- 23. 擴展在點擊
- 24. Apache的Nutch的津貼
- 25. Windows上的Apache Nutch
- 26. 獲取與陣列擴展
- 27. 獲取文件擴展名
- 28. 從文件獲取擴展
- 29. 獲取圖片擴展
- 30. PHP時間如果擴展
謝謝兄弟。我在索引時間已經實現了語言過濾器。我的問題是,我不得不從Solr(索引)中刪除不包含來自Hbase表(其中原始內容由Nutch在提取時間存儲的文件)的Urdu語言的文檔, – Shafiq