我正在運行Spark 1.3.0,並且想要根據模式匹配讀取一些實地標文件。 parquet文件基本上是Hive DB的底層文件,我只想讀取一些文件(跨不同文件夾)。文件夾結構是使用模式匹配在Spark中讀取實驗文件
hdfs://myhost:8020/user/hive/warehouse/db/blogs/some/meta/files/
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/01/file1.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/02/file2.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160103/01/file3.parq
喜歡的東西
val v1 = sqlContext.parquetFile("hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd={[0-9]*}")
我想忽略元文件並加載日期的文件夾裏面只有實木複合地板的文件。這可能嗎?