我在Spark上使用python,並希望將csv獲取到數據框中。Get CSV到Spark數據框
Spark SQL的documentation奇怪地不提供CSV作爲源的解釋。
我發現Spark-CSV,但是我有問題與文件兩個部分組成:
"This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"
我真的需要補充這樣的說法,每次我推出pyspark或火花提交?看起來很不雅。是不是有辦法導入它在python而不是每次redownloading它?df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
即使我這樣做,這將無法正常工作。在這行代碼中,「源」參數代表什麼?我如何簡單地在Linux上加載本地文件,如「/Spark_Hadoop/spark-1.3.1-bin-cdh4/cars.csv」?
這個答案是舊的,火花的新版本有更簡單的方法來實現這一目標。參考答案https://stackoverflow.com/a/41638342/187355和https://stackoverflow.com/a/46539901/187355 –