2017-05-18 95 views
0

嗨,我還是新來的氣流。我想知道Airflow如何連接到Spark? 我有一臺服務器與不同的帳戶(或配置文件)來訪問Spark羣集。我不知道Airflow是否有固定的配置文件來連接火花?或者它遵循用戶配置文件?Airflow如何連接到Spark,並且可以爲Airflow中的用戶設置不同的訪問權限?

另外,是否有可能爲Airflow中的用戶設置不同的訪問權限? 例如,有權訪問Spark(或hdfs)中的位置A的用戶A只能運行與位置A有關的任務(因此無法從位置B運行任何作業)

Thanks in提前。

回答

0

您可以在Airflow回購的conrtib文件夾中查看社區貢獻的SparkSubmitOperator。基本上,這個運算符通過python運行一個spark-submit子進程並等待它完成。自上一次穩定版本(1.8.1)以來,這個操作符已經有了很大改進。如果您已經設置了火花,並且不希望氣流控制火花作業運行的位置,則此功能運行良好。

用戶權利問題更爲複雜。其中一種方法是修改SparkSubmitOperator以設置子進程的環境參數,並將此參數作爲(額外)輸入給此運算符。