2013-04-03 88 views
2

我想寫一個程序,通過一個相當大的網站搜索並提取某些東西。我有一些在線Python課程,但都沒有提到如何使用Python訪問互聯網。我不知道我應該從哪裏開始。如何用Python搜索互聯網?

+2

你需要閱讀HTTP,HTML和可能的JS/PHP/etc,可能在列表中浸入你的腳趾,以更強大的理解的DOM,然後瞭解文本解析/處理。看看urllib/urllib2/httplib/requests/etc,以及像BeautifulSoup甚至Selenium,取決於你需要的複雜性和交互性。 – 2013-04-03 22:00:15

+0

你看過[Python文檔](http://docs.python.org/2/library/internet)嗎?通過以下方式在Google上獲得「Python Internet」的首個結果... – kindall 2013-04-03 22:09:49

回答

2

您首先要了解有關標準Python庫urllib2的信息。

一旦你對這個庫背後的基本思想感到滿意,你可以嘗試requests,它更容易與web交互,尤其是API。我建議與httpie並行使用它來測試從命令行快速和骯髒的查詢。

如果你去一個遠一點建設librairy或引擎抓取你將需要某種形式的異步編程的網站,我建議先從Gevent

最後,如果你想創建一個履帶/ BOT你可以看看Scrapy。你應該從深入的基礎庫入手,因爲它可能會變得非常複雜

1

這聽起來像你想要一個網絡爬蟲/刮板。你想拉什麼樣的東西?圖片?鏈接?只是網絡爬蟲/刮板的工作。

從那裏開始,應該會有很多關於Stackoverflow的文章,這些文章將幫助您實現連接到互聯網(獲取Web響應)等細節。

請參閱this文章。