2017-08-19 66 views
0

我正在構建一個Spark類庫,開發人員在編寫它們的Spark作業以訪問Azure Data Lake上的數據時將使用它。但認證將取決於他們要求的數據集。我需要從Spark作業中調用一個rest API來獲取憑據並通過身份驗證從ADLS讀取數據。這甚至可能嗎?我是新來的火花。如何從Spark任務中對ADLS進行身份驗證

回答

0

這並非100%清楚你實際打算做什麼。所以這裏是一個通用的答案。

如果您的代碼只是通過Spark調用並且能夠訪問文件系統,那麼您的工作非常簡單。在HDInsight羣集中,您可以通過在不同位置提供adl:// URL來直接訪問數據。對於您自己的Spark羣集,您可以按照以下說明將它連接到ADLS:https://medium.com/azure-data-lake/connecting-your-own-hadoop-or-spark-to-azure-data-lake-store-93d426d6a5f4

現在,如果您正在開發其他內容,則需要評估您執行的環境是否可以訪問Spark中的罐子類路徑。然後,您可以使用安裝在那裏的ADLS Java SDK來訪問ADLS。

希望這至少有點用處。

相關問題