2016-02-12 44 views
1

我想以編程方式解析沒有公開API的網站上的某些網頁。以編程方式解析網頁(使用登錄名/ SSL)

例如檢查我的成績是否在大學準備好。

有沒有人做過這樣的事情,並得到一個可用的解決方案?我可能正在尋找一個用python或類似的東西編寫的庫,對吧?

另請注意,其中一些網站需要登錄和/或ssl。你會如何處理這個問題?

+0

Python有網頁抓取許多軟件包。 [scrapy](http://scrapy.org)在官方教程和大量用戶羣中有很好的文檔記錄。 Scrapy支持[登錄](http://doc.scrapy.org/en/latest/topics/request-response.html#topics-request-response-ref-request-userlogin),這裏有一個相當活躍的社區堆棧溢出。 http://stackoverflow.com/questions/tagged/scrapy –

回答

0

我會推薦使用urllib或urllib2,它允許您發送/接收請求,併爲您提供可輕鬆解析的HTML對象。關於如何使用它

import urllib 
proxies = {'http': 'http://proxy.example.com:8080/'} 
opener = urllib.FancyURLopener(proxies) 
f = opener.open("http://www.python.org") 
f.read() 

的更多信息:https://docs.python.org/2/library/urllib.html

+0

我知道urllib ....我想要的東西,可以幫助我解析數據,不只是給我原始的HTML ... – deller