我想創建或找到一個用Python編寫的開源網絡爬蟲(蜘蛛/機器人)。它必須找到並遵循鏈接,收集元標記和元描述,網頁標題和網頁網址,並將所有數據放入MySQL數據庫。Python網絡爬蟲與MySQL數據庫
有誰知道任何可以幫助我的開源腳本嗎?此外,如果任何人都可以給我一些關於我應該做什麼的指示,那麼他們是非常歡迎的。
我想創建或找到一個用Python編寫的開源網絡爬蟲(蜘蛛/機器人)。它必須找到並遵循鏈接,收集元標記和元描述,網頁標題和網頁網址,並將所有數據放入MySQL數據庫。Python網絡爬蟲與MySQL數據庫
有誰知道任何可以幫助我的開源腳本嗎?此外,如果任何人都可以給我一些關於我應該做什麼的指示,那麼他們是非常歡迎的。
是的,我知道,
庫
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
開源Web爬蟲
教程
http://www.example-code.com/python/pythonspider.asp
PS我不知道,如果他們使用的MySQL,因爲通常蟒蛇或採用sqlit或postgre SQL所以,如果你願意,你可以用我給你的庫並導入蟒蛇-mysql模塊並執行此操作:D
Scrappy是一個網絡抓取和抓取框架,您可以擴展以將選定的數據插入數據庫。
它就像Django框架的反轉。