2011-04-29 31 views
2

我不想以任何理由製造聖潔戰爭,只是爲了獲得建議並繼續開發。從很多網頁獲取數據的最佳方式(線程/事件驅動)

我需要寫類似爬蟲, 它必須能夠從URL列表獲取一些數據,並對其進行分析。

我將使用紅寶石機械化+引入nokogiri)或Python的機械化+ beautifulsoup)。

但我需要做並行數據處理的效率。這對我來說現在是個大問題。

機械化(對於兩種語言而言)不是線程安全的,據我所知,使用線程並不像許多程序員所說的那樣是「良好實踐」。從另一方面來說,我不知道事件驅動的編程技術以及它如何用於我的情況。

任何幫助表示讚賞。謝謝。

+0

從我的經驗來看,機械化對於每一個爬行需求都不夠靈活,所以你可能不得不自己推出一些。此外,我發現lxml比BeautifulSoup長遠得多,速度更快,更穩定。讓lxml保留在你的可能性列表中。 – Henry 2011-04-29 18:03:55

回答

2

我一直在使用Scrapy,取得了巨大的成功。它非常簡單,並且允許同時使用多個抓取工具。輸出到json,xml等或直接到數據庫。值得一看。

+0

哇,它是強大的,非常有趣的lib,謝謝! – Bill 2011-04-29 17:10:36

相關問題