2011-08-10 165 views
6

我想創建或找到一個用Python編寫的開源網絡爬蟲(蜘蛛/機器人)。它必須找到並遵循鏈接,收集元標記和元描述,網頁標題和網頁網址,並將所有數據放入MySQL數據庫。Python網絡爬蟲與MySQL數據庫

有誰知道任何可以幫助我的開源腳本嗎?此外,如果任何人都可以給我一些關於我應該做什麼的指示,那麼他們是非常歡迎的。

回答

4

是的,我知道,

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

開源Web爬蟲

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS我不知道,如果他們使用的MySQL,因爲通常蟒蛇或採用sqlit或postgre SQL所以,如果你願意,你可以用我給你的庫並導入蟒蛇-mysql模塊並執行此操作:D

http://sourceforge.net/projects/mysql-python/

4

我建議你使用Scrapy,這是一個基於Twistedlxml的強大的抓取框架。它特別適合您要執行的任務類型,它具有基於正則表達式的規則來跟蹤鏈接,並允許您使用正則表達式或XPath表達式從HTML中提取數據。它還提供了他們所謂的「管道」,以便將數據轉儲到任何你想要的。

Scrapy沒有提供內置的MySQL管道,但有人寫了一個here,你可以從中自己創建。

3

Scrappy是一個網絡抓取和抓取框架,您可以擴展以將選定的數據插入數據庫。

它就像Django框架的反轉。