從雲中加載數據的時候,我開始使用火花的時候,我看到下面的代碼什麼的`格式()`做加載數據pyspark
my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt")
我的問題如下:在這裏,我們似乎有2個數據集:一個是com.databricks.spark.csv
,因爲它是一個csv
文件的權利?而另一個數據集是xyz.txt
,因爲它是一個txt
文件。那麼在這個命令中,我正在加載哪個數據集呢?我試驗了我自己,似乎是正在加載的xyz.txt
數據集。但那麼我的問題是這個com.databricks.spark.csv
做什麼?特別是它被放在format()
。它試圖告訴火花會使用與數據集com.databricks.spark.csv
相同的格式加載數據集xyz.txt
?