2013-01-19 44 views
-2

我試圖從一些使用python的網頁收集一些數據(他們沒有API)。我從來沒有這樣做過。通過發佈表單從網站收集數據

我認爲它的ASP.NET(我對此知之甚少)或者一些使用form-helpers的庫,這使得通過只用urllib發送相同的postdata來「手動」重新創建請求變得非常複雜。有各種奇怪的人類不友好的後期數據 - 上帝知道他們的意思(和開發人員)。

我試圖刪除這些,但只是保持基本數據,但打破了請求。例如,當我在分頁中更改頁面時,會出現某種類似「hash-ish」字符串的變化(沒有簡單的頁面= x查詢字符串就足夠了)。

因此,花幾個小時試圖弄清楚一切是如何運作的,我想有一些圖書館可以幫助我。有了像瀏覽器這樣的界面,我可以開始給它一個url,並說明要填寫什麼樣的表格,什麼鏈接到goto,它會自動處理cookie,隱藏的輸入等,然後給我html輸出。

我希望你明白我在找什麼。也許它不存在,但我覺得它會有用,所以它應該存在。

解決此問題的其他方法也很有幫助。

謝謝

+2

嘗試[requests](http://docs.python-requests.org/en/latest/)。如果網站給你帶來問題,那麼就發佈一個問題,提供它給你的具體問題。 –

+0

@MarkHildreth經過一些快速閱讀(我可能錯了)請求似乎更像是一個增強的urllib。雖然我發現了一種叫做機械化的東西,它似乎更像是我正在尋找的東西。謝謝反正 –

+0

網站是否使用類似doPostBack? –

回答

1

Selenium WebDriverghost.py樣的項目,如果你需要瀏覽器般的行爲。

+0

ghost.py看起來很完美,支持javascript和所有。我實際上最終沒有找到一個Python解決方案來使用casper.js,但是也要感謝我將嘗試ghost.py。 –

相關問題