2016-02-10 35 views

回答

0

最流行的圖書館中,我知道是這樣的: scrapy

它有一個非常好的文檔,以及有用的例子開始。 並與一些谷歌搜索我認爲你可以找到一種方法來做你想做的。

0

您可以使用 1)美麗的湯 2)Python的請求 3)Scrapy 4)機械化 ...等等。這些是最流行的工具,並且易於爲初學者學習。 從那裏,你可以分支到更復雜的東西,如UserAgentSpoofing,HTML負載平衡,正則表達式,XPATH和CSS選擇器。您將需要這些來抓取更多具有保護或登錄字段的困難站點。

希望有所幫助。 乾杯

+0

嗨ig Yu, 非常感謝您的回覆。我想知道所有這些圖書館是否在Windows平臺上工作。 –

+0

嘿。當然。我在窗戶上使用它們。不過,我強烈建議你使用一些虛擬環境,比如virtualenv。因爲你的python版本很可能會混淆。 EG:Scrapy只能在python2上運行。 BeautifulSoup適用於Python3。您將需要交替使用您的python版本。 –

+0

非常感謝明羽:)我會嘗試.. –

0

正如其他人建議我也會使用美麗的湯和Python請求,但是如果您在加載頁面後必須使用JavaScript加載某些數據的網站出現問題,並且您只通過請求獲得不完整的html,嘗試使用Selenium和PhantomJs進行刮擦。