1
我正在使用Spark流處理放置在HDFS中的文件。具體使用JavaStreamingContext
類的textFileStream
方法。apache spark Streaming textFileStream - 讀取gzip文件
由於方法名稱包含'文本',我認爲這隻會讀取文本文件,但令我驚訝的是它也讀取gzip文本文件。
任何人都可以請澄清,如果這是預期的行爲,它可以讀取所有格式?
我正在使用Spark流處理放置在HDFS中的文件。具體使用JavaStreamingContext
類的textFileStream
方法。apache spark Streaming textFileStream - 讀取gzip文件
由於方法名稱包含'文本',我認爲這隻會讀取文本文件,但令我驚訝的是它也讀取gzip文本文件。
任何人都可以請澄清,如果這是預期的行爲,它可以讀取所有格式?
是的,Spark使用Hadoop的File I/O API,它透明地處理壓縮格式。即使對於輸出,您也可以配置應通過屬性設置使用的壓縮,API將處理它。