什麼的`格式（）`做加載數據pyspark

從雲中加載數據的時候，我開始使用火花的時候，我看到下面的代碼什麼的`格式（）`做加載數據pyspark

my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt")

我的問題如下：在這裏，我們似乎有2個數據集：一個是com.databricks.spark.csv，因爲它是一個csv文件的權利？而另一個數據集是xyz.txt，因爲它是一個txt文件。那麼在這個命令中，我正在加載哪個數據集呢？我試驗了我自己，似乎是正在加載的xyz.txt數據集。但那麼我的問題是這個com.databricks.spark.csv做什麼？特別是它被放在format()。它試圖告訴火花會使用與數據集com.databricks.spark.csv相同的格式加載數據集xyz.txt？

來源

2017-03-06 ftxx

表格下面的代碼： -

my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt")

數據集是s3n://myfolder/data/xyz.txt

Format是格式的名字從你需要閱讀你的數據集s3n://myfolder/data/xyz.txt

pyspark < 1.6沒有任何csv format所以databricks format: com.databricks.spark.csv是必需的。如果輸入的數據是任何其他格式一樣parquet or orc or json，那麼你需要使用parquet or orc or json代替com.databricks.spark.csv

基本格式結構，其中的數據被保存。

來源

2017-03-08 05:45:46

什麼的`格式（）`做加載數據pyspark

回答

相關問題