2012-08-08 43 views
0

我正在使用nutch 2.0,我已經創建了一個插件來解析實現解析器的html,並且工作得很好。Nutch解析插件和重定向

問題是,我還需要「解析」生成重定向(301,300)的頁面,以獲取url和http code.My插件忽略重定向的頁面。

任何想法如何我可以獲得這些信息,也許與其他擴展點?

回答

1

我已經實現了協議擴展點,現在我可以在數據庫上保存重定向和加載時間。