我想用MapReduce方法分析連續的數據流(通過HTTP訪問),所以我一直在研究Apache Hadoop。不幸的是,Hadoop似乎希望用一個固定大小的輸入文件開始一項工作,而不是在消費者到達時能夠將新數據交給消費者。這是真的嗎,還是我錯過了什麼?是否有不同的MapReduce工具可用於從開放套接字讀入數據?可伸縮性在這裏是一個問題,所以我寧願讓MapReducer處理混亂的並行化問題。流數據和Hadoop? (而不是Hadoop流)
我玩過Cascading,能夠在通過HTTP訪問的靜態文件上運行作業,但這並不能真正解決我的問題。我可以使用curl作爲一箇中間步驟,將數據轉儲到Hadoop文件系統的某個地方,並在每次新的數據塊準備就緒時編寫一個監視器來發出新的作業,但這是一種骯髒的破解;必須有一些更優雅的方式來做到這一點。有任何想法嗎?
我對這個領域並不是很熟悉,但是第一眼看也很喜歡ActiveInsight(CPAL許可證 - 要求歸屬)。 – 2009-12-14 11:00:49