2015-08-25 25 views
0

我需要處理大量(兆兆字節)的數據集(主要是圖像)。我正在考慮使用Hadoop YARN和HDFS來處理這些數據。這個想法是將所有數據攝入HDFS,然後提交Hadoop作業來處理數據。 YARN將部署接近數據的處理應用程序並處理它們。如果我的處理應用程序是「jar」文件,這很好。如果我的圖像處理應用程序是一個泊塢窗圖像,是否可以將作業提交給YARN,以便提交的應用程序是一個泊塢窗圖像(而不是jar文件)? YARN必須在數據節點中部署應用程序(docker image)才能開始處理。Hadoop中的Docker應用程序支持YARN

我檢查了Docker Container Executor,但它啓動了Docker容器中的YARN容器,應用程序(作業)仍然是一個jar文件,如上面鏈接所示。谷歌Kubernetes似乎符合我的需求(在集羣中部署和管理Docker鏡像),但它不提供「類似HDFS」的存儲(因此「將應用程序移到數據而不是數據到應用程序」不適合) 。

請讓我知道是否有任何集羣管理器框架可以在集羣中部署標準應用程序包(如jar,rpm,docker容器)以訪問共享/分佈式數據存儲。

在此先感謝。

回答