Q

如何使用Spark/Scala從Azure blob獲取文件列表？

2017-04-18 62 views 0 likes

0

如何從Spark和Scala中的Azure blob存儲獲取文件列表。如何使用Spark/Scala從Azure blob獲取文件列表？

我沒有得到任何想法來解決這個問題。

2017-04-18 sks

A

回答

0

我不知道你使用的Spark是在Azure上還是在本地。所以他們是兩種情況，但類似。

要在本地運行的火花，有一個官方blog，介紹如何從星火訪問Azure的Blob存儲。關鍵是您需要在core-site.xml文件中將Azure存儲帳戶配置爲HDFS兼容存儲，並將兩個罐子hadoop-azure & azure-storage添加到您的類路徑中，以便通過協議wasb[s]訪問HDFS。您可以參考官方的tutorial來了解HDFS兼容存儲與和blog關於HDInsight配置的更多詳細信息。
對於在Azure上運行的Spark，區別僅在於使用訪問HDFS，其他準備工作是在使用Spark創建HDInsight羣集時由Azure完成的。

的方法列出文件是listFiles或SparkContextwholeTextFiles。

希望它有幫助。

2017-04-19 09:18:15

相關問題