2012-01-09 66 views
1

對於我的第一個爬行程序的網站,我打算做到以下幾點:爬行使用Python

  1. 打開下面的網址使用硒:http://www.google.com/
  2. 收集所有培訓相關鏈接
  3. 在結果頁,枚舉所有存在的http鏈接並將它們存儲在csv中。
  4. 回到步驟2,但單擊下一個

誰能給我一些幫助上手? (如果有幫助,我在Python 2.6.6上)

+1

本網站的硒使用量過大。網站沒有任何動態(ajax)內容。如果這是你的第一個任務,請嘗試[機械化](http://wwwsearch.sourceforge.net/mechanize/)在文檔 – reclosedev 2012-01-09 17:41:54

回答

4

看看BeautifulSoup庫,在頁面上查找鏈接非常簡單,並且已經有了StackOverflow的示例。

+0

有樣本感謝每一個。你的建議真的幫助我。 – user1063643 2012-01-10 16:31:55

+0

我使用了這個BeautifulSoup庫並且抓取了下面的鏈接 – user1063643 2012-01-10 17:22:16

+0

看看Python的re庫(對於正則表達式),你可以使用它來匹配滿足條件的URL。 – Peter 2012-01-10 18:06:14

1

國際海事組織,lxml是更容易使用和pythonic API。查看here作爲詳細解釋的例子。

0

如果您的目標只是爲了獲取數據,您有沒有考慮聯繫Cars.com的人員?他們可能能夠爲您提供Feed或API訪問權限,前提是您的最終目標是獲取數據,而不是僅開發抓取程序。