1
我正在尋找合併由Map-reduce程序生成的小型RC文件的方式。 什麼是最好的小RC文件合併到大的RC文件。hadoop RC文件格式:合併hdfs中的小文件
我正在尋找合併由Map-reduce程序生成的小型RC文件的方式。 什麼是最好的小RC文件合併到大的RC文件。hadoop RC文件格式:合併hdfs中的小文件
您可以嘗試getmerge命令。這將源目錄和目標文件作爲輸入,並將源目錄中的文件連接到目標文件。
例如,如果Hive表名是search_combined_rc,則可以將組合的rc文件組合到單個文件中。
Hadoop的FS -getmerge /user/hive/warehouse/dev.db/search_combined_rc//localdata /目的地文件
由於RCFile的不能打開典型的順序文件的工具打開,你可以嘗試使用rcfilecat工具來顯示RCFiles的內容。您需要將文件從本地目錄移回HDFS。
hive --service rcfilecat/hdfsfilelocation
做了這項工作嗎?我想可能有另一種方法,你可以通過設置減速器1的數量在一個文件中包含所有文件。 –