2012-05-30 34 views
2

我正在尋找一種方法來配置Nutch抓取網絡,但只索引某些類型的文件(XML是具體的)到Solr。我很確定一個自定義插件可以完成這項工作,可能是基於索引 - 更多的代碼,但我寧願不這樣做,除非我必須這樣做。我也確信我可以將所有東西都吸收到Solr中,然後用Solr的API刪除不需要的內容,但這有點不方便。有沒有辦法將Nutch配置爲只索引Solr中的某些文件類型?配置Nutch只索引索爾特定的文件類型

回答

0

在nutch中,您可以爲url定義過濾器。那麼用fileextension的名字過濾呢?

0

您可以根據擴展名過濾文件類型。
您可以指定要包含或排除的擴展名regex-urlfilter.txt

例如,排除( - ): -

#skip圖像和其他後綴我們還不能解析29#的覆蓋範圍更加廣泛使用urlfilter後綴插件 - (GIF | GIF | JPG | JPG |。 PNG | PNG | ICO | ICO | CSS | CSS |坐| SIT | EPS | EPS | WMF | WMF |拉鍊| ZIP | PPT | PPT |英里| MPG | XLS | XLS |廣州|廣州|轉| RPM | TGZ | TGZ | mov | MOV | exe | EXE | jpeg | JPEG | bmp | BMP | js | JS)$

+您可以指定包含列表。

+0

我只想_index_ XML數據;我仍然想要抓取大部分內容。如果我使用regex-urlfilter排除了除XML以外的所有內容,Nutch將只抓取XML文檔。 – Ian

+0

所以你想改變索引器的行爲而不是履帶。 – orezvani