博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建議在Hadoop集羣內調用外部系統(查詢Twitter API或抓取網頁)。從Hadoop集羣中運行Web抓取
對於我目前正在開發的系統,有快速和慢速(批量)子系統。數據是從Twitter的API中獲取的,以便快速獲取個人檢索結果。這可能每天有數十萬(甚至數百萬)的外部請求。網頁的內容也被檢索進一步處理 - 至少有相同規模的請求。
除了對外部源的潛在副作用(更改數據以便下一個請求會有所不同),以這種方式使用Hadoop的優勢或缺點是什麼?它是一種有效和有用的散裝方法,和/或快速檢索數據?