如何收集mapreduce作業的輸出？

我試圖在mapreduce中編寫一個簡單的字數統計程序。我的mapreduce程序僅將輸出寫入文件。但我不希望我的輸出寫入文件。我想收集這些信息或輸出（如java收藏）以用於我的程序區域的其餘部分。如何收集mapreduce作業的輸出？

就像例如，如果我在配置單元上提交任何查詢，它將返回結果集對象，但在內部，我的查詢將轉換爲mapreduce程序，並且一旦完成作業就返回結果集對象。它不會像其他mapreduce程序那樣將結果寫入文件系統。

那麼我怎樣才能收集那個輸出，或者如何在reducer或mapper中準備我自己的對象，然後在java程序的其他區域收集那個對象呢？我不希望將輸出寫入文件中。

2014-04-01 Ram

聽起來你想使用Spark而不是Hadoop。 –

有很多方法可以處理Hadoop M-R框架的輸出。爲用戶描述MR工作的主要界面是JobConf類你會發現

getOutputFormat()

和

setOutputFormat()

方法（S），你會/可以描述不同的結果集，如DB （HBase）存儲。需要記住的是，M-R作業處理大量數據，除非您有良好的分佈式對象體系結構，否則在Java內存中作爲對象進行管理會非常麻煩。

Alternativley你可以提供你的實際需求。

希望這有助於帕特

來源

2014-04-01 19:24:16 apesa

MapReduce作業往往會消耗/產生大量的數據。它們也傾向於是獨立的應用程序，而不是某些較大的工作流程的一部分。這兩種說法在這種情況下似乎都不成立。您可以將輸出格式設置爲NullOutputFormat以防止創建任何文件。然後，您可以將結果作爲字符串添加到您的作業conf中，這將使其可用於任何可以讀取conf的內容。

來源

2014-04-03 04:19:20 TheCowGoesMoo

MapReduce任務通常從HDFS或HBase獲取文件。

首先採取HDFS文件系統中的目錄的絕對路徑現在

在你的map-reduce任務的主要方法或批次，招聘類的使用setOutputFormat（）來設置輸出格式

文本樣品輸出爲

Configuration conf = new Configuration(); 
    Job job = new Job(conf, "app"); 
    job.setJarByClass(Application.class); // batch/main method's class name 
    job.setMapperClass(Mapper.class); 
    job.setReducerClass(Reducer.class); 
    job.setOutputKeyClass(Text.class); 
    job.setOutputValueClass(Text.class); 
    job.setMapOutputKeyClass(Text.class); 
    job.setMapOutputValueClass(Text.class); 
    job.setInputFormatClass(TextInputFormat.class); 
    job.setOutputFormatClass(TextOutputFormat.class); 
    FileInputFormat.addInputPath(job, new Path(args[0])); 
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

現在在運行hadoop任務時，第二個參數是輸出路徑，它是HDFS子目錄的路徑。

現在，因爲文件在HDFS我們使用正常的unix命令不能訪問它，首先從HDFS將該文件轉換爲ext3/4文件格式，然後使用納米/ VI

DFS -cat {path_to_outfile_inHDFS}

讀取它

來源

2014-04-19 18:19:04

根據我對您的問題的理解，您正在使用Hive for mapreduce來處理HDFS數據，並且您希望通過不將輸出保存到HDFS來使用Hive輸出。您可以使用HIVE中的以下命令將o/p寫入HDFS或本地文件系統：

以下命令將表輸出到本地目錄 INSERT OVERWRITE LOCAL DIRECTORY''SELECT * FROM table_name;

以下命令將表輸出到HDFS文件 INSERT OVERWRITE DIRECTORY'/ tmp/hdfs_out'SELECT a。* FROM table_name;

以後，如果你想與此O/P工作，在HDFS的其他Java MR O/P。

爲了實現這一點，你需要之前寫你的蜂巢輸出，HDFS與下面的解決方案去用兩種不同的O/P的工作。

解決方法1：使用地圖側或縮小側部連接的JAVA語言。

[OR]

Soultion2：通過使用Jobconfig對象或Hadoop分佈式高速緩存側技術側面。

來源

2014-04-22 13:37:32

如何收集mapreduce作業的輸出？

回答

相關問題