我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop進行處理。我現有的大部分代碼都是用Ruby編寫的,因此我想在Amazon EMR上使用Hadoop Streaming以及我自定義的Ruby Mapper和Reducer腳本。使用SequenceFile進行Hadoop流式處理(在AWS上)
我找不到有關如何將Sequence文件與Hadoop Streaming集成的文檔,以及如何將輸入提供給我的Ruby腳本。我很欣賞一些關於如何啓動作業的指令(直接在EMR上,或者只是一個普通的Hadoop命令行),以利用SequenceFiles以及關於如何期望將數據提供給我的腳本的一些信息。
- 編輯:我以前曾經錯誤地提到了StreamFiles而不是SequenceFiles。我認爲我的數據文件不正確,但道歉。改變後的答案很簡單。
您是否試過[Mandy](https://github.com/forward/mandy)框架?我已經使用了好幾個月了,對我來說效果很好。 – Edenbauer 2012-08-15 11:53:45