我正在尋找一種方法來配置Nutch抓取網絡,但只索引某些類型的文件(XML是具體的)到Solr。我很確定一個自定義插件可以完成這項工作,可能是基於索引 - 更多的代碼,但我寧願不這樣做,除非我必須這樣做。我也確信我可以將所有東西都吸收到Solr中,然後用Solr的API刪除不需要的內容,但這有點不方便。有沒有辦法將Nutch配置爲只索引Solr中的某些文件類型?配置Nutch只索引索爾特定的文件類型
2
A
回答
0
在nutch中,您可以爲url定義過濾器。那麼用fileextension的名字過濾呢?
0
您可以根據擴展名過濾文件類型。
您可以指定要包含或排除的擴展名regex-urlfilter.txt
例如,排除( - ): -
#skip圖像和其他後綴我們還不能解析29#的覆蓋範圍更加廣泛使用urlfilter後綴插件 - (GIF | GIF | JPG | JPG |。 PNG | PNG | ICO | ICO | CSS | CSS |坐| SIT | EPS | EPS | WMF | WMF |拉鍊| ZIP | PPT | PPT |英里| MPG | XLS | XLS |廣州|廣州|轉| RPM | TGZ | TGZ | mov | MOV | exe | EXE | jpeg | JPEG | bmp | BMP | js | JS)$
+您可以指定包含列表。
相關問題
- 1. Nutch 1.13索引鏈接配置
- 2. 只搜索特定的索引
- 3. Vim配置特定的文件類型
- 4. 如何使nutch索引僅包含特定文本的頁面?
- 5. Apache Nutch不索引整個網站,只有子文件夾
- 6. apache nutch通過REST索引到索引
- 7. 使用NEST2爲特定索引分配類型
- 8. 寫入特定索引的文件
- 9. 如何讓我只爲相同的配置文件索引?
- 10. 谷歌索引只有特定的域
- 11. 索引索爾文件索引時出錯
- 12. 從索爾索引刪除文件 - 索引不觸及
- 13. 如何解析html與nutch和索引特定的標籤solr?
- 14. 由nutch更新solr索引
- 15. Solr使用Nutch Crawler索引
- 16. SolrIndexer索引器失敗nutch
- 17. nutch - 如何抓取特定的文件類型?
- 18. 配置htaccess目錄索引文件
- 19. 索引與索爾
- 20. 爲Nutch編寫插件(索引)
- 21. 索爾索引與搜索
- 22. php未定義的索引錯誤的配置文件
- 23. Mysql索引配置
- 24. 在.htaccess中設置特定文件夾的索引頁面
- 25. 搜索引擎索引和類型
- 26. 如何使用雅虎搜索API搜索特定的文件類型?
- 27. Nutch,蜘蛛,索引網頁它已經在它的索引?
- 28. 文本列的唯一索引 - 索引類型是什麼?
- 29. 重新分配的類索引的陣列(引用類型)
- 30. 從泛型類型中檢索特定的類類型?
我只想_index_ XML數據;我仍然想要抓取大部分內容。如果我使用regex-urlfilter排除了除XML以外的所有內容,Nutch將只抓取XML文檔。 – Ian
所以你想改變索引器的行爲而不是履帶。 – orezvani