2017-03-13 152 views
4

在給定的時間,我的應用程序中有用戶文件系統(apache CMIS)。因爲它越來越大,我懷疑轉移到hadoop(HDFS),因爲我們還需要運行一些統計數據。 問題: 當前文件系統提供文件的版本控制。 當我讀到hadoop-HDFS和文件版本控制時,我發現大部分時間我都必須自己編寫這個(版本控制)層。 是否已有可用於管理HDFS中文件版本的東西,還是我真的必須親自編寫它(不想重新發明熱水,但也找不到合適的解決方案)。Hadoop(HDFS) - 文件版本

回答

有關詳情:見下文

的Hadoop(HDFS)的答案(S)註釋不支持的文件版本。將hadoop與(亞馬遜)S3結合使用時,您可以獲得此功能: Hadoop將使用S3作爲文件系統(沒有chunck,但恢復將由S3提供)。該解決方案隨S3提供的文件版本一起提供。 Hadoop仍將使用YARN進行分佈式處理。

回答

1

HDFS無法進行版本控制。
取而代之,您可以使用Amazon S3,它提供了Versioning,也是compatible與Hadoop。

+0

「也與Hadoop兼容」。 Hadoop可以使用S3作爲文件系統嗎?所以它不是真正的版本控制。 –

+0

@VandeperreMaarten兼容我的意思是Hadoop可以讀寫S3。 Hadoop可以使用S3作爲FS,因爲它不會在S3上強制實施其本身的HDFS功能,所以它不會影響S3的版本控制功能。 S3提供了真正的版本控制,與手動調用或預定的HDFS快照 – franklinsijo

+0

不同,但我無法使用此版本控制我的文件版本,對不對?正如hadoop將文件存儲在chunck中一樣...所以在S3中,我將版本化chuncks,而不是版本化文件。然後,我將不得不尋求在hadoop之上進行一些版本控制。 –

1

HDFS支持快照。我認爲這與HDFS的「版本控制」非常接近。