我正在嘗試爲nutch 1.0編寫一個自定義插件。這個插件應該解析html數據並從文檔中濾除相關信息。我有一個基本的插件工作,它擴展了HtmlParserResult對象,並在每次執行解析時執行。用nutch 1.0和自定義插件解析html數據
我的問題是兩個面臨此刻:
我不明白Nutch的解析不夠好,工作流程/ pipline。我在nutch網站上找不到關於此的信息。
我不明白DOM解析是如何完成的,我看到Nutch有一組DOM對象,並且HtmlParser插件做了一些DOM解析,但我還沒有想出如何做到最好。