要使用Apache Nutch v1.3
僅從網頁中提取一些特定內容。檢查parse-html插件。似乎它使用tagsoup或nekohtml規範化每個html頁面。這很好。我只需要在網頁上提取<span class='xxx'>
和<span class='yyy'>
elemetns中的文本。如果將提取的文本保存到不同的字段中(例如,content_xxx
,content_yyy
),會很好。 我的問題是:我應該寫我自己的插件還是可以用一些標準的方式來完成?Apache Nutch僅索引頁面內容的一部分
最好的方法是在規範化的網頁上應用XSLT並獲得結果。那可能嗎?