Q

Apache Nutch僅索引頁面內容的一部分

solr
nutch

2011-07-08 30 views 2 likes

2

要使用Apache Nutch v1.3僅從網頁中提取一些特定內容。檢查parse-html插件。似乎它使用tagsoup或nekohtml規範化每個html頁面。這很好。我只需要在網頁上提取<span class='xxx'>和<span class='yyy'> elemetns中的文本。如果將提取的文本保存到不同的字段中（例如，content_xxx,content_yyy），會很好。我的問題是：我應該寫我自己的插件還是可以用一些標準的方式來完成？Apache Nutch僅索引頁面內容的一部分

最好的方法是在規範化的網頁上應用XSLT並獲得結果。那可能嗎？

2011-07-08 Archer

A

回答

3

構建您自己的ParsingFilter和IndexingFilter非常簡單。 Nutch爲您提供DOM文檔，您只需遍歷並搜索您的div。然後，只需將新字段添加到索引和模式以及完成即可。

有關於如何做到這一點的例子：

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

好運

2011-07-12 09:46:26 mana

1

默認情況下，解析後內容是平坦的。所以我不認爲你可以做你想做的事情，除非你可以在索引步驟中提取你的內容，例如一旦內容被壓平。

2011-07-10 21:27:29 millebii

0

而不是寫自己的插件，你也可以使用這些自定義插件從而可以被配置爲提取部分頁面：

2014-11-25 15:02:34 tahagh

相關問題