我很驚訝的是,對於讓Nutch能夠抓取需要身份驗證的網站部分來說,那裏的支持或信息很少。Nutch:通過在標頭中添加一個cookie進行身份驗證
我知道,也許Apache Nutch目前還不能(but apparently hopes to)支持Http POST驗證。
然而,我們真正想要做的是能夠添加一個cookie來我們Nutch的機器人頭部,將允許它訪問該網站的那些部分這種方式(而不是發表用戶名和密碼的形式,然後收到cookie)。
所以我花了大量的時間搜索,很驚訝,大多數討論都是在2005年或2008年:here,there,everywhere。
畢竟這些年來,有沒有辦法解決這個限制,或者是否仍然沒有辦法通過給予Nutch一個'prebaked'cookie來進行身份驗證,以便它可以訪問我們網站的會員只有部分?
喜眸裏在鏈接的變化, 您在上面的鏈接所提到的代碼是好的但是有沒有因爲我這,我收到編譯時錯誤import語句。 也可以請你分享鏈接,你已經上傳了基於認證的完整代碼 –
嗨Jayesh,我已經添加了導入。不幸的是我不能共享java文件,因爲它有一些敏感的內容。如果您還有其他問題,請告訴我。 – Mouli
嗨Mouli, 感謝您添加導入語句。但是,請問您可以在哪裏打電話給以下功能? 受保護的響應getResponse(URL url,WebPage頁面,布爾重定向) 拋出ProtocolException,IOException異常 –