我試圖抓取一個網站,更具體地說,使用ManifoldCF
的Google Site
具有SAML身份驗證,並將抓取的數據索引到Apache Solr中。但是當我抓取URL時,它會給我302
重定向到登錄頁面,然後說RESPONSECODENOTINDEXABLE
。如何使用ManifoldCF或nutch抓取具有SAML認證的網站?
我不知道我是否正確認證或沒有。在manifoldCF中,我們有HTTP basic
認證選項,NTLM authentication
和Session-based
訪問憑證認證方法。我使用了Session based
身份驗證方法,它更像是基於表單的身份驗證,而不是SAML
身份驗證。
有沒有人爬過一個網站使用manifoldCF有SAML
認證?如果不是manifoldCF
,有沒有人能夠通過Apache Nutch完成這項工作,因爲我擔心,它也只提供HTTP
basic,Digest
和NTLM
驗證。
任何洞察將有所幫助。可以提供更多關於這個問題的信息,如果有人在這裏認爲它可以很容易地完成。基本上,當我抓取https://sites.google.com/a/my-sub-domain.com時,它會重定向到SSO登錄頁面,並且抓取工具會拒絕再抓取,從而導致出現302錯誤。這是一個基於內聯網的網站。