我想第一次抓取一個網站。我正在使用urllib2 Python 我目前正在嘗試使用Python urlib2和Beautifulsoup登錄到Foursquare社交網站。要查看特定頁面,我需要提供用戶名和密碼。
如何讓Python urlib2在嘗試登錄網站時巧妙地避免安全檢查?
因此,我遵循ducumentation頁面上描述的Basic Authentication。
我想,一切運行良好,但該網站拋出了安全檢查,要求我輸入一個文本(capcha),然後再向我發送所需的頁面。它顯然看起來像是,該網站正在檢測到,一個頁面不是被一個人請求,而是一個爬蟲。
那麼,是什麼方式,以避免被發現。如何使urllib2獲得所需的頁面,而不必停在安全檢查?請幫助..
如果他們要求您證明訪問是人爲的,他們不希望您使用爬蟲,他們? – Interrobang
@Interrobang,你爲什麼簡單地降低了我的問題?我非常需要爲我的研究項目做到這一點。所以,我想,可能有辦法,有人可以提供幫助。 – sumanth232