0
我用newAPIHadoopFile在我的斯卡拉類讀取HDFS的文本文件,如下打開文件與給定時間戳
val conf = new SparkConf
val sc = new SparkContext(conf)
val hc = new Configuration(sc.hadoopConfiguration)
val dataFilePath = "/data/sample"
val input = sc.newAPIHadoopFile(dataFilePath, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], hc)
但現在我只需要一個時間戳範圍內打開的文件。 有關我如何做到這一點的任何想法?
感謝, 傑夫
謝謝您的答覆Cimox。我正在尋找一個系統時間戳過濾器。 – Jeff
我編輯了我的帖子,上面的代碼應該能夠使用給定的時間戳過濾文件。之後您可以使用Spark打開這些過濾的文件。 – cimox
謝謝cimox :) – Jeff