1
我是假設,谷歌存儲連接器將允許查詢GS直接,如果它是HDFS從Dataproc星火,但它看起來像下面沒有(從星火殼牌)工作:如何從Spark Dataproc檢查Google存儲中是否存在文件?
是否有僅使用Hadoop API訪問Google Storage文件的方式?
我是假設,谷歌存儲連接器將允許查詢GS直接,如果它是HDFS從Dataproc星火,但它看起來像下面沒有(從星火殼牌)工作:如何從Spark Dataproc檢查Google存儲中是否存在文件?
是否有僅使用Hadoop API訪問Google Storage文件的方式?
這是因爲FileSystem.get(...)
返回默認FileSystem
根據您的配置是HDFS
,並且只能使用從hdfs://
開始的路徑。使用以下來獲得正確的FS。
Path p = new Path("gs://...");
FileSystem fs = p.getFileSystem(...);
fs.exists(p);
謝謝,它只是通過獲取文件系統像這樣:'path.getFileSystem(sc.hadoopConfiguration)'' –