2013-08-30 77 views

回答

3

如果您只想告訴nutch不要遵循「a」標籤,您可以簡單地將「a」添加到「parser.html.outlinks.ignore_tags」設置中。

如果你想從解析後的數據中去掉「a」標籤及其內容,因爲目前與nutch一起提供的HtmlParser沒有任何與此相關的設置,我認爲你應該編寫一個nutch插件並開發一個HtmlParseFilter來做你的邏輯。

相關問題