如何通過java代碼在hadoop集羣環境中提取.gz文件,而無需將文件複製到本地(通過代碼直接在hadoop中提取)?如何在hadoop集羣環境中提取.gz文件?
0
A
回答
0
「gunzip -k file.gz」通常用於解壓.gz文件,同時保留原始.gz,它是你在找什麼?
+0
不....我想在java中的代碼提取....需要通過代碼....不通過終端... –
0
考慮你的。廣州文件中有一個文件,你可以這樣做:
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path inFile = new Path(argv[0]);
Path outFile = new Path(argv[1]);
FSDataInputStream in = fs.open(inFile);
org.apache.hadoop.io.compress.GzipCodec.GzipInputStream gis = new org.apache.hadoop.io.compress.GzipCodec.GzipInputStream(in);
FSDataOutputStream out = fs.create(outFile);
doCopy(gis, out);
public static void doCopy(FSDataInputStream is, FSDataOutputStream os) throws Exception {
int oneByte;
while ((oneByte = is.read()) != -1) {
os.write(oneByte);
}
os.close();
is.close();
}
0
這樣做的其他方式,你可以創建一個shell腳本並運行時,你需要相同的腳本。或者你試着在你的代碼中實現終端命令。
如果你想從終端做它,你可以運行此命令
的gzip [-acdfhlLnNrtvV19] [-S後綴] [名稱...] gunzip解[-acfhlLnNrtvV] [-S後綴] [名...]
相關問題
- 1. 如何在Hadoop環境中找到集羣名稱?
- 2. 在集羣環境中
- 3. 如何在WebSphre集羣環境中部署EAR文件?
- 4. 在集羣環境中同步文件系統中的文件
- 5. 在hadoop多羣集環境中運行nutch時出錯
- 6. 的集羣環境
- 7. 集羣環境中的Log4j
- 8. 如何防止hadoop損壞.gz文件
- 9. 放文件的Hadoop環境
- 10. 在Hadoop Virtualbox羣集上訪問文件
- 11. 在集羣環境中緩存
- 12. 在Weblogic羣集環境中登錄-LINUX
- 13. 在集羣環境中配置log4j
- 14. 在集羣環境中的subclipse
- 15. 插座切換在集羣環境中
- 16. 什麼是在集羣環境中
- 17. 在集羣環境中使用石英
- 18. 在集羣環境中安裝BPM 10.3
- 19. 在集羣環境中共享數據
- 20. 如何在此環境中形成羣集並選擇羣集標頭?
- 21. 從損壞的GZ中提取文件
- 22. 從* .gz擴展名中提取文件
- 23. 如何在Java中動態提取.gz文件?
- 24. 如何在命令行中提取多個.gz日誌文件
- 25. 在hadoop集羣上安裝spark集羣
- 26. 爲Hadoop集羣
- 27. 如何在Websphere 6.1集羣環境中運行計劃任務
- 28. 如何同步塊在集羣環境中處理
- 29. 如何在tomcat 6.0集羣環境中實現緩存同步?
- 30. 如何在集羣環境中管理彈簧緩存
這是輸入到MapReduce作業嗎? –
@BinaryNerd號 –