2010-06-27 44 views
0

我對使用Avro保存和讀取Hadoop HDFS中的文件感興趣,我看到Hadoop問題跟蹤器中的一些Jira有關實現對Avro的支持,但沒有示例說明如何在Hadoop中啓用Avro支持。另外我還不完全確定目前的0.20支持Avro,因爲一些Jira的收盤價爲0.21。是否有可能獲得最新的0.21,並以某種方式打開Avro並使用它?是否有可能在Hadoop 0.20中使用Avro?

回答

3

此博客文章展示了在地圖/縮小作業中使用Avro的一些示例代碼:http://www.datasalt.com/2011/07/hadoop-avro/這裏沒有太多例子。在這裏你可以找到一些關於如何配置一個標準的Map/Reduce Job來使用Avro作爲輸入或輸出格式或者兩者都使用的代碼片段。還有一些技巧,比如如何編寫一個自定義的GroupComparator進行二次排序,或者如何指定一個自定義的Partitioner(我在其他地方找不到的東西)。