Python Web抓取 - 必需的庫以及如何操作

我正在尋找一些真正的幫助。我想用網絡抓取Python，我需要它，因爲我想導入一些數據庫，我們如何在Python中做到這一點。我們需要什麼庫？Python Web抓取 - 必需的庫以及如何操作

2016-02-10 Krishna Chaitanya

最流行的圖書館中，我知道是這樣的： scrapy

它有一個非常好的文檔，以及有用的例子開始。並與一些谷歌搜索我認爲你可以找到一種方法來做你想做的。

2016-02-10 23:58:50 kozer

您可以使用 1）美麗的湯 2）Python的請求 3）Scrapy 4）機械化 ...等等。這些是最流行的工具，並且易於爲初學者學習。從那裏，你可以分支到更復雜的東西，如UserAgentSpoofing，HTML負載平衡，正則表達式，XPATH和CSS選擇器。您將需要這些來抓取更多具有保護或登錄字段的困難站點。

希望有所幫助。乾杯

來源

2016-02-11 03:11:27

嗨ig Yu，非常感謝您的回覆。我想知道所有這些圖書館是否在Windows平臺上工作。 –

嘿。當然。我在窗戶上使用它們。不過，我強烈建議你使用一些虛擬環境，比如virtualenv。因爲你的python版本很可能會混淆。 EG：Scrapy只能在python2上運行。 BeautifulSoup適用於Python3。您將需要交替使用您的python版本。 –

非常感謝明羽:)我會嘗試.. –

正如其他人建議我也會使用美麗的湯和Python請求，但是如果您在加載頁面後必須使用JavaScript加載某些數據的網站出現問題，並且您只通過請求獲得不完整的html，嘗試使用Selenium和PhantomJs進行刮擦。

來源

2017-05-31 09:09:13 nils

Python Web抓取 - 必需的庫以及如何操作

回答

相關問題