2015-05-05 98 views
1

我正在使用Spark流處理放置在HDFS中的文件。具體使用JavaStreamingContext類的textFileStream方法。apache spark Streaming textFileStream - 讀取gzip文件

由於方法名稱包含'文本',我認爲這隻會讀取文本文件,但令我驚訝的是它也讀取gzip文本文件。

任何人都可以請澄清,如果這是預期的行爲,它可以讀取所有格式?

回答

1

是的,Spark使用Hadoop的File I/O API,它透明地處理壓縮格式。即使對於輸出,您也可以配置應通過屬性設置使用的壓縮,API將處理它。