我想從包含許多子目錄的目錄中讀取文件。數據是在S3,我試圖做到這一點:從s3或本地文件系統的火花從子目錄遞歸讀取文件
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
這似乎並不奏效。雖然
欣賞的幫助
您是否試過只是使用'textFile(「s3n:///*」)'? –
是的,我試過了,不起作用 – venuktan
請發佈一個如何嵌套目錄的例子。可能有一個涉及簡單通配符的解決方案,如:'s3n:// bucket/*/*/*'。 –