2011-06-01 89 views
1

博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建議在Hadoop集羣內調用外部系統(查詢Twitter API或抓取網頁)。從Hadoop集羣中運行Web抓取

對於我目前正在開發的系統,有快速和慢速(批量)子系統。數據是從Twitter的API中獲取的,以便快速獲取個人檢索結果。這可能每天有數十萬(甚至數百萬)的外部請求。網頁的內容也被檢索進一步處理 - 至少有相同規模的請求。

除了對外部源的潛在副作用(更改數據以便下一個請求會有所不同),以這種方式使用Hadoop的優勢或缺點是什麼?它是一種有效和有用的散裝方法,和/或快速檢索數據?

回答

2

優點:這是一種超級簡單的方式來分配需要完成的工作。

減號:由於Hadoop從失敗中恢復的方式,您需要非常小心管理什麼是和不在運行(您當然可以這麼做,這只是需要注意的一點)。例如,如果減少失敗,那麼所有爲該分區提供服務的地圖作業也必須重新運行。顯然,這很可能是一個無縮減的工作,但對於映射器來說,這仍然是事實......如果有一半的調用運行,然後工作失敗,那麼它會被重新調度?

您可以使用某種高吞吐量系統來管理實際進行的呼叫或某些呼叫。但它肯定可以適當地用於此。

相關問題