從很多網頁獲取數據的最佳方式（線程/事件驅動）

我不想以任何理由製造聖潔戰爭，只是爲了獲得建議並繼續開發。從很多網頁獲取數據的最佳方式（線程/事件驅動）

我需要寫類似爬蟲，它必須能夠從URL列表獲取一些數據，並對其進行分析。

我將使用紅寶石（機械化+引入nokogiri）或Python的（機械化+ beautifulsoup）。

但我需要做並行數據處理的效率。這對我來說現在是個大問題。

機械化（對於兩種語言而言）不是線程安全的，據我所知，使用線程並不像許多程序員所說的那樣是「良好實踐」。從另一方面來說，我不知道事件驅動的編程技術以及它如何用於我的情況。

任何幫助表示讚賞。謝謝。

2011-04-29 Bill

從我的經驗來看，機械化對於每一個爬行需求都不夠靈活，所以你可能不得不自己推出一些。此外，我發現lxml比BeautifulSoup長遠得多，速度更快，更穩定。讓lxml保留在你的可能性列表中。 – Henry 2011-04-29 18:03:55

我一直在使用Scrapy，取得了巨大的成功。它非常簡單，並且允許同時使用多個抓取工具。輸出到json，xml等或直接到數據庫。值得一看。

2011-04-29 16:35:55 acw

哇，它是強大的，非常有趣的lib，謝謝！ – Bill 2011-04-29 17:10:36

回答