-2

我想第一次抓取一個網站。我正在使用urllib2 Python 我目前正在嘗試使用Python urlib2和Beautifulsoup登錄到Foursquare社交網站。要查看特定頁面,我需要提供用戶名和密碼。
如何讓Python urlib2在嘗試登錄網站時巧妙地避免安全檢查?

因此,我遵循ducumentation頁面上描述的Basic Authentication

我想,一切運行良好,但該網站拋出了安全檢查,要求我輸入一個文本(capcha),然後再向我發送所需的頁面。它顯然看起來像是,該網站正在檢測到,一個頁面不是被一個人請求,而是一個爬蟲。

那麼,是什麼方式,以避免被發現。如何使urllib2獲得所需的頁面,而不必停在安全檢查?請幫助..

+5

如果他們要求您證明訪問是人爲的,他們不希望您使用爬蟲,他們? – Interrobang

+1

@Interrobang,你爲什麼簡單地降低了我的問題?我非常需要爲我的研究項目做到這一點。所以,我想,可能有辦法,有人可以提供幫助。 – sumanth232

回答

1

您必須使用foursquare API。我想,沒有其他辦法。 API是爲此目的而設計的。 當HTML頁面發生變化時,完全依賴HTML頁面HTML格式的爬行程序將會失敗