我正在使用火花,並且在hdfs(zip,gzip,7zip,tar,bz2,tar.gz等)上有不同類型的壓縮文件。任何人都可以讓我知道解壓縮的最佳途徑。對於某些壓縮,我可以使用CompressionCodec。但它不支持所有壓縮格式。對於zip文件,我做了一些搜索,發現可以使用ZipFileInputFormat。但我找不到任何罐子。從火花的hdfs解壓縮文件
0
A
回答
0
對於某些壓縮格式(我知道它對於tar.gz和zip是真的,還沒有爲其他測試做過測試),您可以直接使用dataframe API,它會爲您處理壓縮:
val df = spark.read.json("compressed-json.tar.gz")
+0
Hi @Ben以上適用於tar文件,但不適用於zip文件。我使用Spark 1.6和Scala 2.10.2 –
相關問題
- 1. 內部HDFS文件壓縮
- 2. 星火單機模式:如何壓縮火花輸出寫入HDFS
- 3. 得到火花hdfs文件路徑
- 4. 讀數壓縮文件中的火花與斯卡拉
- 5. 解壓縮(解壓縮)由.net壓縮(解壓縮)的文件.net system.io.compression.gzipstream
- 6. 火花:加擾RDDS和壓縮它們
- 7. 壓縮解壓縮的exe文件
- 8. png文件的壓縮和解壓縮
- 9. 壓縮文件爲'hadoop hdfs -get'
- 10. 在HDFS上合併壓縮文件
- 11. 如何用Snappy壓縮文件到HDFS
- 12. Hadoop:在HDFS中壓縮文件?
- 13. 壓縮文件未解壓
- 14. 錯誤而來自本地的Linux文件解壓縮到HDFS
- 15. 火花:如何從火花外殼運行火花文件
- 16. 解壓縮文件
- 17. 解壓縮文件
- 18. 從kafka到hdfs通過火花
- 19. 火花獨立無hdfs
- 20. 火花上保存和HDFS
- 21. Node.js - 壓縮/解壓縮文件夾
- 22. Magick ++壓縮和解壓縮文件
- 23. 在yii中壓縮/解壓縮文件
- 24. 壓縮和解壓縮文件夾
- 25. 使用ZipFile類從多個文件的zip壓縮文件解壓縮文件
- 26. 解壓縮文件並讀取解壓縮文件
- 27. 解壓縮從網絡中的文件
- 28. 解壓縮文件夾並從解壓縮文件中獲取圖像
- 29. 如何解壓/解壓縮* .z文件
- 30. 如何解壓/解壓縮文件
您可以在java中編寫自己的輸入格式和記錄讀取器,並導入到scala中。 https://gist.github.com/jteso/1868049 –
[zip,7zip,tar是*檔案*,不一定是「壓縮」](http://superuser.com/questions/173756/which-is-more-與BZip2和Gzip(gz和gzip是相同的... tar.gz是壓縮的tar歸檔文件)之間的高效tar或zip壓縮是什麼)。無論如何,BZip2是HDFS中的最佳選擇http://comphadoop.weebly.com/index.html –