2017-03-06 32 views
0

從雲中加載數據的時候,我開始使用火花的時候,我看到下面的代碼什麼的`格式()`做加載數據pyspark

my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt") 

我的問題如下:在這裏,我們似乎有2個數據集:一個是com.databricks.spark.csv,因爲它是一個csv文件的權利?而另一個數據集是xyz.txt,因爲它是一個txt文件。那麼在這個命令中,我正在加載哪個數據集呢?我試驗了我自己,似乎是正在加載的xyz.txt數據集。但那麼我的問題是這個com.databricks.spark.csv做什麼?特別是它被放在format()。它試圖告訴火花會使用與數據集com.databricks.spark.csv相同的格式加載數據集xyz.txt

回答

0

表格下面的代碼: -

my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt") 

數據集是s3n://myfolder/data/xyz.txt

Format是格式的名字從你需要閱讀你的數據集s3n://myfolder/data/xyz.txt

pyspark < 1.6沒有任何csv format所以databricks format: com.databricks.spark.csv是必需的。如果輸入的數據是任何其他格式一樣parquet or orc or json,那麼你需要使用parquet or orc or json代替com.databricks.spark.csv

基本格式結構,其中的數據被保存。