MapReduce任務通常從HDFS或HBase獲取文件。
首先採取HDFS文件系統中的目錄的絕對路徑現在
在你的map-reduce任務的主要方法或批次,招聘類的使用setOutputFormat()來設置輸出格式
文本樣品輸出爲
Configuration conf = new Configuration();
Job job = new Job(conf, "app");
job.setJarByClass(Application.class); // batch/main method's class name
job.setMapperClass(Mapper.class);
job.setReducerClass(Reducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
現在在運行hadoop任務時,第二個參數是輸出路徑,它是HDFS子目錄的路徑。
現在,因爲文件在HDFS我們使用正常的unix命令不能訪問它,首先從HDFS將該文件轉換爲ext3/4文件格式,然後使用納米/ VI
DFS -cat {path_to_outfile_inHDFS}
讀取它
聽起來你想使用Spark而不是Hadoop。 –