我想寫一個程序,通過一個相當大的網站搜索並提取某些東西。我有一些在線Python課程,但都沒有提到如何使用Python訪問互聯網。我不知道我應該從哪裏開始。如何用Python搜索互聯網?
2
A
回答
2
1
這聽起來像你想要一個網絡爬蟲/刮板。你想拉什麼樣的東西?圖片?鏈接?只是網絡爬蟲/刮板的工作。
從那裏開始,應該會有很多關於Stackoverflow的文章,這些文章將幫助您實現連接到互聯網(獲取Web響應)等細節。
請參閱this文章。
0
互聯網上的內容遠遠多於網站,但我認爲你只是想抓取一些html頁面並從中提取數據。你有很多很多選擇來解決這個問題。只是一些出發點:
- 從標準庫
- https://pypi.python.org/pypi/requests(更簡單,更人性化)的urllib2
- http://scrapy.org/(一個很好的爬行框架)
- http://www.crummy.com/software/BeautifulSoup/(庫從提取數據的HTML )
相關問題
- 1. 搜索引擎如何通過互聯網找到網站
- 2. Java訪問互聯網搜索?
- 3. 如何從互聯網使用python
- 4. 如何通過互聯網
- 5. 如何通過互聯網
- 6. 如何將互聯網
- 7. Python網頁搜索
- 8. Android:收集快速搜索框結果表格互聯網
- 9. Maven在互聯網上搜索我的項目的子模塊
- 10. 模塊不能初始化ZF3已經搜索互聯網
- 11. 如何檢索iphone上的互聯網數據使用情況
- 12. 在android中,你如何搜索互聯網並在活動中返回結果?
- 13. 如何使用NSIS互聯網插件?
- 14. 如何使用eclipse互聯網上
- 15. 如何使用bash或python從互聯網上查看時間?
- 16. 從互聯網
- 17. 從互聯網
- 18. mozilla pdf.js webview索要互聯網
- 19. 從互聯網上檢索數據
- 20. 無法從互聯網檢索數據
- 21. 互聯網應用程序通信互聯網寬
- 22. Python - 從互聯網下載.exe文件
- 23. 防止在python中丟失互聯網
- 24. Python 3.X與互聯網玩
- 25. 從互聯網訪問的Python程序
- 26. Python的SOCK_STREAM通過互聯網
- 27. 如何使用searchlogic搜索belongs_to關聯?
- 28. 互聯網禁用programmaticaly
- 29. 互聯網瀏覽器 - 用
你需要閱讀HTTP,HTML和可能的JS/PHP/etc,可能在列表中浸入你的腳趾,以更強大的理解的DOM,然後瞭解文本解析/處理。看看urllib/urllib2/httplib/requests/etc,以及像BeautifulSoup甚至Selenium,取決於你需要的複雜性和交互性。 – 2013-04-03 22:00:15
你看過[Python文檔](http://docs.python.org/2/library/internet)嗎?通過以下方式在Google上獲得「Python Internet」的首個結果... – kindall 2013-04-03 22:09:49