0
我正在使用杜克庫web代理來抓取我可以訪問的數據庫。我遇到了這樣的問題,即由於數據庫是通過代理服務器訪問的,因此如果數據庫不需要代理身份驗證,我無法直接抓取此數據庫。使用python在web代理上抓取網站
我試了幾個事情:
我寫了一個腳本,登錄到網絡公爵(https://shib.oit.duke.edu/idp/AuthnEngine')。
我再硬編碼在我的登錄數據:
login_data = urllib.urlencode({'j_username' : 'userxx',
'j_password' : 'passwordxx',
'Submit' : 'Enter'
})
我請登錄:
resp = opener.open('https://shib.oit.duke.edu/idp/AuthnEngine', login_data)
,然後我創建cookie罐對象持有從代理網站的cookie。
然後我嘗試訪問數據庫與我的腳本,它仍然告訴我認證是必需的。我想知道如何解決代理服務器所需的身份驗證。
如果您有任何建議,請讓我知道。
謝謝 揚