0
我正在使用nutch 2.0,我已經創建了一個插件來解析實現解析器的html,並且工作得很好。Nutch解析插件和重定向
問題是,我還需要「解析」生成重定向(301,300)的頁面,以獲取url和http code.My插件忽略重定向的頁面。
任何想法如何我可以獲得這些信息,也許與其他擴展點?
我正在使用nutch 2.0,我已經創建了一個插件來解析實現解析器的html,並且工作得很好。Nutch解析插件和重定向
問題是,我還需要「解析」生成重定向(301,300)的頁面,以獲取url和http code.My插件忽略重定向的頁面。
任何想法如何我可以獲得這些信息,也許與其他擴展點?
我已經實現了協議擴展點,現在我可以在數據庫上保存重定向和加載時間。