我一直在嘗試使用Python和urllib/urllib2來刮取使用Microsoft堆棧(ASP.NET,C#,IIS)創建的網站(失敗,我可能會添加)。我也使用cookielib來管理cookie。在花了很長時間在Chrome瀏覽器中分析網站並檢查標題後,我一直沒有找到可以登錄的工作解決方案。目前,爲了使其在最基本的層面上運行,我已經使用所有適當的表單數據(甚至視圖狀態等)對編碼的URL字符串進行硬編碼。我也傳遞有效的標題。使用Python和urllib2刮取ASP.NET
我目前收到的響應如下:?
29 | pageRedirect ||/aspxerrorpath =/Default.aspx的|
我不知道如何解釋上述。另外,我在處理登錄字段時使用的客戶端代碼非常廣泛。
以下是它的工作方式:您輸入您的用戶名/密碼並點擊「登錄」按鈕。按下Enter鍵也可模擬此按鈕按下。輸入字段不在表單中。相反,在Login按鈕上有一些onClick事件(其中大部分僅用於審美),但有問題的則處理驗證。它在將其發送到服務器端之前做了一些基本的檢查。基於網絡資源,它絕對看起來是使用.NET AJAX。
通常在登錄本網站時,您需要將domian作爲POST以及用戶名和密碼的表單數據等等。然後,有一些URL重寫或重定向,將您帶到url.com/twitter的內容頁面。嘗試直接訪問url.com/twitter時,會將您重定向到主頁面。
我應該注意到我已經決定離開有問題的網址了。我沒有做任何惡意的事情,只是每合理增加一次時間就自動執行一次非常單調的檢查(我熟悉同情屏幕抓取)。但是,如果它沒有讓域名所有者滿意,那麼將我的StackOverflow帳戶與該帳戶關聯起來會很簡單。
我的問題是:我已經能夠在過去成功地登錄和自動化服務,其中沒有一個是基於.NET的。有什麼不同,我應該做的,或者我可能會離開?
你能否詳細說明一下?有許多不同的用戶腳本... – 2012-11-20 16:46:17