2013-07-17 59 views
0

我想以二進制格式加載一些文件(例如jpegs,但可以是任何二進制格式),以某種方式操縱它並將其寫回。我想在hadoop上做到這一點,我想寫在Cascading框架上。如何在Cascading中讀寫二進制文件?

我可以使用二進制格式文件的二進制接收器/選項卡嗎?任何其他方式來做到這一點?我找不到任何東西。我能想到的唯一選擇是我可能應該實現我自己的hadoop InputFormat,它將讀取文件作爲字節數組或ByteBuffer,但是我覺得很奇怪,沒有內置的解決方案(因爲我相信我這不是第一個遇到這個問題的人)。

如果任何人有這將是高度讚賞

回答

2

您必須編寫自己的Hadoop InputFormat處理的二進制數據,然後換行InputFormat在自定義級聯Scheme任何指針。在光明的一面,你不需要自定義。

這一切都來自自己的級聯author