0
我想讀。廣州文件的火花內容/斯卡拉在數據幀/ RDD使用下面的代碼讀數壓縮文件中的火花與斯卡拉
val conf = new SparkConf()
val sc = new SparkContext(conf)
val data = sc.wholeTextFiles("path to gz file")
data.collect().foreach(println);
的.gz文件是28 MB,當我使用此命令執行火花提交
spark-submit --class sample--master local[*] target\spark.jar
它在控制檯中給出Java Java堆空間問題。
這是閱讀的.gz文件的最好方法,如果是的,我怎麼能解決Java堆錯誤的問題。
感謝
您的解決方案是在[閱讀多個壓縮文件](https://stackoverflow.com/questions/38635905/reading-in-multiple-files-compressed-in-tar-gz-archive-into-spark) –
The原來的答案其實這裏https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark – eliasah
的[從星火壓縮整個閱讀文本文件]可能的複製( https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark) – mrsrinivas