0
有沒有什麼方法可以讀取存儲在hadoop hdfs上的文件的原始內容?如何使用gzip壓縮存儲在hdfs上的文件的原始內容?
通常,當我提交-input
param指向.gz
文件(如-input hdfs://host:port/path/to/gzipped/file.gz
)的流作業時。
我的任務接收逐行解壓縮輸入,這是不是我想要什麼。
有沒有什麼方法可以讀取存儲在hadoop hdfs上的文件的原始內容?如何使用gzip壓縮存儲在hdfs上的文件的原始內容?
通常,當我提交-input
param指向.gz
文件(如-input hdfs://host:port/path/to/gzipped/file.gz
)的流作業時。
我的任務接收逐行解壓縮輸入,這是不是我想要什麼。
你可以用各自的Hadoop配置初始化FileSystem
:
FileSystem.get(conf);
它有一個方法open
應在原則上允許您讀取原始數據。