2014-04-21 50 views
0

當使用帶有NEW API和自定義(java)輸出格式或(java)Reducer類未發現問題的Hadoop python流時,會發生類似問題。而舊的API則可以正常工作。使用Hadoop Streaming和New API文件格式時未找到類

即 下面的命令行參數工作文件與舊的API,但有新的API的問題。

-inputformat JavaClassName 
    -outputformat JavaClassName 
    -partitioner JavaClassName 
    -combiner streamingCommand or JavaClassNam 

例如,如果你看看這個博客帖子:http://research.neustar.biz/2011/08/30/custom-inputoutput-formats-in-hadoop-streaming/如果你試圖用我曾與當地的Hadoop和AWS EMR問題的新MultipleOutputs(減速)來實現這一點。

有什麼想法?

回答

0

看起來像-libjars選項丟失。指定JAR,其中包含自定義格式和自定義分區與-libjars選項一起還設置環境變量HADOOP_CLASSPATH新創建的jar執行Hadoop的命令

export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}:Path-Custom-Format.jar

0

真之前如下,請參閱http://jira.pentaho.com/browse/PDI-11959

在使用hadoop-streaming-2.6.0.jar時,我面臨與定製分區程序類相同的困難。我得到它的工作

  1. 導入org.apache.hadoop.mapred包而不是各自的mapreduce包。
  2. 實現的,而不是擴展分區程序類

猜分區程序接口,這是一樣的舊的API。