我不想以任何理由製造聖潔戰爭,只是爲了獲得建議並繼續開發。從很多網頁獲取數據的最佳方式(線程/事件驅動)
我需要寫類似爬蟲, 它必須能夠從URL列表獲取一些數據,並對其進行分析。
我將使用紅寶石(機械化+引入nokogiri)或Python的(機械化+ beautifulsoup)。
但我需要做並行數據處理的效率。這對我來說現在是個大問題。
機械化(對於兩種語言而言)不是線程安全的,據我所知,使用線程並不像許多程序員所說的那樣是「良好實踐」。從另一方面來說,我不知道事件驅動的編程技術以及它如何用於我的情況。
任何幫助表示讚賞。謝謝。
從我的經驗來看,機械化對於每一個爬行需求都不夠靈活,所以你可能不得不自己推出一些。此外,我發現lxml比BeautifulSoup長遠得多,速度更快,更穩定。讓lxml保留在你的可能性列表中。 – Henry 2011-04-29 18:03:55