對於我的第一個爬行程序的網站,我打算做到以下幾點:爬行使用Python
- 打開下面的網址使用硒:http://www.google.com/
- 收集所有培訓相關鏈接
- 在結果頁,枚舉所有存在的http鏈接並將它們存儲在csv中。
- 回到步驟2,但單擊下一個
誰能給我一些幫助上手? (如果有幫助,我在Python 2.6.6上)
對於我的第一個爬行程序的網站,我打算做到以下幾點:爬行使用Python
誰能給我一些幫助上手? (如果有幫助,我在Python 2.6.6上)
看看BeautifulSoup庫,在頁面上查找鏈接非常簡單,並且已經有了StackOverflow的示例。
有樣本感謝每一個。你的建議真的幫助我。 – user1063643 2012-01-10 16:31:55
我使用了這個BeautifulSoup庫並且抓取了下面的鏈接 – user1063643 2012-01-10 17:22:16
看看Python的re庫(對於正則表達式),你可以使用它來匹配滿足條件的URL。 – Peter 2012-01-10 18:06:14
如果您的目標只是爲了獲取數據,您有沒有考慮聯繫Cars.com的人員?他們可能能夠爲您提供Feed或API訪問權限,前提是您的最終目標是獲取數據,而不是僅開發抓取程序。
本網站的硒使用量過大。網站沒有任何動態(ajax)內容。如果這是你的第一個任務,請嘗試[機械化](http://wwwsearch.sourceforge.net/mechanize/)在文檔 – reclosedev 2012-01-09 17:41:54