從Hadoop集羣中運行Web抓取

博客文章 - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - 建議在Hadoop集羣內調用外部系統（查詢Twitter API或抓取網頁）。從Hadoop集羣中運行Web抓取

對於我目前正在開發的系統，有快速和慢速（批量）子系統。數據是從Twitter的API中獲取的，以便快速獲取個人檢索結果。這可能每天有數十萬（甚至數百萬）的外部請求。網頁的內容也被檢索進一步處理 - 至少有相同規模的請求。

除了對外部源的潛在副作用（更改數據以便下一個請求會有所不同），以這種方式使用Hadoop的優勢或缺點是什麼？它是一種有效和有用的散裝方法，和/或快速檢索數據？

來源

2011-06-01 Alister Bulman

優點：這是一種超級簡單的方式來分配需要完成的工作。

減號：由於Hadoop從失敗中恢復的方式，您需要非常小心管理什麼是和不在運行（您當然可以這麼做，這只是需要注意的一點）。例如，如果減少失敗，那麼所有爲該分區提供服務的地圖作業也必須重新運行。顯然，這很可能是一個無縮減的工作，但對於映射器來說，這仍然是事實......如果有一半的調用運行，然後工作失敗，那麼它會被重新調度？

您可以使用某種高吞吐量系統來管理實際進行的呼叫或某些呼叫。但它肯定可以適當地用於此。

來源

2011-06-01 18:50:09

從Hadoop集羣中運行Web抓取

回答

相關問題