我正在尋找HDFS中的默認壓縮。我看到了this,但我不希望我的文件具有擴展名的gzip(實際上,它們應該是可訪問的,就好像它們沒有壓縮一樣)。實際上,我正在尋找的內容與選項「」壓縮內容以保存磁盤空間「在Windows上。該選項在內部壓縮文件,但可以像通常文件一樣訪問它們。任何想法都會有所幫助。內部HDFS文件壓縮
感謝
我正在尋找HDFS中的默認壓縮。我看到了this,但我不希望我的文件具有擴展名的gzip(實際上,它們應該是可訪問的,就好像它們沒有壓縮一樣)。實際上,我正在尋找的內容與選項「」壓縮內容以保存磁盤空間「在Windows上。該選項在內部壓縮文件,但可以像通常文件一樣訪問它們。任何想法都會有所幫助。內部HDFS文件壓縮
感謝
這並不在標準HDFS的實現存在,你必須自己管理。你必須管理你自己的壓縮。但是,如果解決這個問題對您來說足夠重要,那麼a proprietary implementation of Hadoop, MapR, does this,。
使用hadoop一段時間後,這並沒有真正打擾我了。 Pig和MapReduce等爲我自動處理壓縮。我知道這不是一個真正的答案,但我不能說你的問題是你是否只是煩惱,或者你有一個真正的問題造成的。使用將| gunzip
添加到一切並不需要很長時間。我例如:
hadoop fs -cat /my/file.gz | gunzip
cat file.txt | gzip | hadoop fs -put - /my/file.txt.gz
當你使用,你需要考慮讓他們裂開的壓縮文件 - 運行地圖時降低即可以Hadoop的拆分此文件(如果該文件不是可拆分的,只能通過單個地圖讀取)
通常的解決方法是使用容器格式,例如序列文件,orc文件等,您可以在其中啓用壓縮。如果你使用簡單的文本文件(csv等) - 有一個lzo project by twitter,但我沒有親自使用它