1
我想避免將整個流寫入文件,然後將其加載到數據框。什麼是正確的方式?Spark從InputStream創建一個數據幀?
我想避免將整個流寫入文件,然後將其加載到數據框。什麼是正確的方式?Spark從InputStream創建一個數據幀?
您可以檢查Spark Streaming和sqlnetworkWordCount這也解釋了,你的問題可以通過創建的SparkSession
singleton instance
通過使用SparkStreaming
SparkContext
來解決。
你應該有更好的想法,通過以上鍊接dataframes
創建從streaming rdd
。
火花流? –
https://spark.apache.org/docs/latest/api/scala/index.html#[email protected](path:String,minPartitions:Int):org.apache.spark.rdd。 RDD [String] – Reactormonk
@Reactormonk,此API在hdfs中獲取路徑,而不是流。 – Raytracer