Python網絡爬蟲與MySQL數據庫

我想創建或找到一個用Python編寫的開源網絡爬蟲（蜘蛛/機器人）。它必須找到並遵循鏈接，收集元標記和元描述，網頁標題和網頁網址，並將所有數據放入MySQL數據庫。Python網絡爬蟲與MySQL數據庫

有誰知道任何可以幫助我的開源腳本嗎？此外，如果任何人都可以給我一些關於我應該做什麼的指示，那麼他們是非常歡迎的。

是的，我知道，

庫

開源Web爬蟲

教程

PS我不知道，如果他們使用的MySQL，因爲通常蟒蛇或採用sqlit或postgre SQL所以，如果你願意，你可以用我給你的庫並導入蟒蛇-mysql模塊並執行此操作：D

2011-08-10 20:29:45 Lynob

我建議你使用Scrapy，這是一個基於Twisted和lxml的強大的抓取框架。它特別適合您要執行的任務類型，它具有基於正則表達式的規則來跟蹤鏈接，並允許您使用正則表達式或XPath表達式從HTML中提取數據。它還提供了他們所謂的「管道」，以便將數據轉儲到任何你想要的。

Scrapy沒有提供內置的MySQL管道，但有人寫了一個here，你可以從中自己創建。

2011-08-10 20:29:19 MatToufoutu

Scrappy是一個網絡抓取和抓取框架，您可以擴展以將選定的數據插入數據庫。

它就像Django框架的反轉。

2011-08-10 20:29:30 hannson

回答