0
我試圖使用Wordcount代碼與mapreduce hadoop。但是,我讀到的幾乎所有的wordcount教程都是從作業配置的文件路徑導入數據。如何從飛羚數據庫導入字符串數據到wordcount mapreduce
我想使用java將impala數據庫連接到字數mapreduce。
我該如何繼續?或者只需在作業配置中輸入字符串變量。
我試圖使用Wordcount代碼與mapreduce hadoop。但是,我讀到的幾乎所有的wordcount教程都是從作業配置的文件路徑導入數據。如何從飛羚數據庫導入字符串數據到wordcount mapreduce
我想使用java將impala數據庫連接到字數mapreduce。
我該如何繼續?或者只需在作業配置中輸入字符串變量。
實現此目的的快速選項是,在您的impala/hive會話中發出show create table <table name>
,並獲取表格的storage location
。
重新使用表的文件路徑位置作爲wordcount程序的輸入路徑,並相應地處理記錄。
如何獲取存儲位置?實際上,我通過查詢從我的數據庫中獲取字符串。我想查詢結果作爲wordcount mapreduce的輸入。 – Matrixwira
它只是一個select * from查詢,或者你有任何複雜的操作就像sum(),group by,join?..只是想知道你是否直接打印表格內容使用select或包括任何更多的操作它.. – sureshsiva