爬行使用Python

對於我的第一個爬行程序的網站，我打算做到以下幾點：爬行使用Python

誰能給我一些幫助上手？（如果有幫助，我在Python 2.6.6上）

本網站的硒使用量過大。網站沒有任何動態（ajax）內容。如果這是你的第一個任務，請嘗試[機械化]（http://wwwsearch.sourceforge.net/mechanize/）在文檔 – reclosedev 2012-01-09 17:41:54

看看BeautifulSoup庫，在頁面上查找鏈接非常簡單，並且已經有了StackOverflow的示例。

2012-01-09 18:17:55 Peter

有樣本感謝每一個。你的建議真的幫助我。 – user1063643 2012-01-10 16:31:55

我使用了這個BeautifulSoup庫並且抓取了下面的鏈接 – user1063643 2012-01-10 17:22:16

看看Python的re庫（對於正則表達式），你可以使用它來匹配滿足條件的URL。 – Peter 2012-01-10 18:06:14

國際海事組織，lxml是更容易使用和pythonic API。查看here作爲詳細解釋的例子。

2012-01-09 19:46:05 schlamar

如果您的目標只是爲了獲取數據，您有沒有考慮聯繫Cars.com的人員？他們可能能夠爲您提供Feed或API訪問權限，前提是您的最終目標是獲取數據，而不是僅開發抓取程序。

2012-01-14 18:15:46 carguy

回答