2011-07-08 30 views
2

要使用Apache Nutch v1.3僅從網頁中提取一些特定內容。檢查parse-html插件。似乎它使用tagsoup或nekohtml規範化每個html頁面。這很好。我只需要在網頁上提取<span class='xxx'><span class='yyy'> elemetns中的文本。如果將提取的文本保存到不同的字段中(例如,content_xxx,content_yyy),會很好。 我的問題是:我應該寫我自己的插件還是可以用一些標準的方式來完成?Apache Nutch僅索引頁面內容的一部分

最好的方法是在規範化的網頁上應用XSLT並獲得結果。那可能嗎?

回答

1

默認情況下,解析後內容是平坦的。 所以我不認爲你可以做你想做的事情,除非你可以在索引步驟中提取你的內容,例如一旦內容被壓平。

相關問題