0
我有一個hdfs文件,其大小爲11 GB。我想分割成1 GB的多個文件。 我該怎麼做?我的Hadoop版本是2.7.3hadoop命令在HDFS上拆分文件
我有一個hdfs文件,其大小爲11 GB。我想分割成1 GB的多個文件。 我該怎麼做?我的Hadoop版本是2.7.3hadoop命令在HDFS上拆分文件
如果有火花,嘗試如下─
下面的例子拆分輸入文件分成2個文件:
spark-shell
scala> sc.textFile("/xyz-path/input-file",2).saveAsTextFile("/xyz-path/output-file")
爲什麼要拆分檔案? –
可能的重複-https://stackoverflow.com/questions/29567139/how-to-divide-a-big-dataset-into-multiple-small-files-in-hadoop-in-an-efficient –
hdfs dfs - Ddfs.block.size = 1G -put file' – philantrovert