2013-07-10 34 views
2

我很驚訝的是,對於讓Nutch能夠抓取需要身份驗證的網站部分來說,那裏的支持或信息很少。Nutch:通過在標頭中添加一個cookie進行身份驗證

我知道,也許Apache Nutch目前還不能(but apparently hopes to)支持Http POST驗證。

然而,我們真正想要做的是能夠添加一個cookie來我們Nutch的機器人頭部,將允許它訪問該網站的那些部分這種方式(而不是發表用戶名和密碼的形式,然後收到cookie)。

所以我花了大量的時間搜索,很驚訝,大多數討論都是在2005年或2008年:herethere,everywhere

畢竟這些年來,有沒有辦法解決這個限制,或者是否仍然沒有辦法通過給予Nutch一個'prebaked'cookie來進行身份驗證,以便它可以訪問我們網站的會員只有部分?

回答

3

我已將自定義代碼添加到nutch協議-http客戶端插件來解決問題。

共享下面

http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites

+1

喜眸裏在鏈接的變化, 您在上面的鏈接所提到的代碼是好的但是有沒有因爲我這,我收到編譯時錯誤import語句。 也可以請你分享鏈接,你已經上傳了基於認證的完整代碼 –

+0

嗨Jayesh,我已經添加了導入。不幸的是我不能共享java文件,因爲它有一些敏感的內容。如果您還有其他問題,請告訴我。 – Mouli

+1

嗨Mouli, 感謝您添加導入語句。但是,請問您可以在哪裏打電話給以下功能? 受保護的響應getResponse(URL url,WebPage頁面,布爾重定向) 拋出ProtocolException,IOException異常 –

相關問題