我正在尋找一些真正的幫助。我想用網絡抓取Python,我需要它,因爲我想導入一些數據庫,我們如何在Python中做到這一點。我們需要什麼庫?Python Web抓取 - 必需的庫以及如何操作
0
A
回答
0
最流行的圖書館中,我知道是這樣的: scrapy
它有一個非常好的文檔,以及有用的例子開始。 並與一些谷歌搜索我認爲你可以找到一種方法來做你想做的。
0
您可以使用 1)美麗的湯 2)Python的請求 3)Scrapy 4)機械化 ...等等。這些是最流行的工具,並且易於爲初學者學習。 從那裏,你可以分支到更復雜的東西,如UserAgentSpoofing,HTML負載平衡,正則表達式,XPATH和CSS選擇器。您將需要這些來抓取更多具有保護或登錄字段的困難站點。
希望有所幫助。 乾杯
0
正如其他人建議我也會使用美麗的湯和Python請求,但是如果您在加載頁面後必須使用JavaScript加載某些數據的網站出現問題,並且您只通過請求獲得不完整的html,嘗試使用Selenium和PhantomJs進行刮擦。
相關問題
- 1. Web抓取。在Python中,我如何使用主動鏈接進行操作?
- 2. 哪些操作可以並行完成而不需要抓取GIL?
- 3. Heroku和Web抓取
- 4. 是否可以使用F#中的LINQ以及如何操作?
- 5. Selenium/Web抓取/網頁抓取Python中的應用程序
- 6. 多線程python抓取所需的鎖?
- 7. CMake部署必需的庫
- 8. Python Web抓取 - 如何找到地圖元素的座標?
- 9. JSP Servlet Web抓取
- 10. scrapy/Python抓取但不抓取數據
- 11. 如何操作Joomla!易於屏幕抓取的網站
- 12. 可以加載/需要的庫以及用作程序
- 13. 使用python在web代理上抓取網站
- 14. Python - 如何啓用Cookie與Web請求抓取?
- 15. 安裝抓取,網站抓取庫
- 16. Instagram Web抓取追隨者
- 17. 如何取消以前的JavaScript操作
- 18. 如何製作Web抓取應用程序用戶友好的
- 19. NLTK/pyNLTK可以「按語言」(即非英語)工作,以及如何操作?
- 20. 抓就地操作
- 21. Python Web抓取請求自動登錄不工作
- 22. 數字操作數是否必需?
- 23. 我需要對恢復的數據庫做什麼更改以及如何操作?
- 24. Web抓取突然停止工作
- 25. Web作業上的Python庫
- 26. Python中的屏幕抓取
- 27. 我的Kibana服務器的Web抓取
- 28. GetResponseStream()或ReadBytes()誰負責下載數據以及如何操作?
- 29. ConcurrentHashMap及其操作
- 30. 時間的問題..以及如何在java中操作它
嗨ig Yu, 非常感謝您的回覆。我想知道所有這些圖書館是否在Windows平臺上工作。 –
嘿。當然。我在窗戶上使用它們。不過,我強烈建議你使用一些虛擬環境,比如virtualenv。因爲你的python版本很可能會混淆。 EG:Scrapy只能在python2上運行。 BeautifulSoup適用於Python3。您將需要交替使用您的python版本。 –
非常感謝明羽:)我會嘗試.. –