如何在不使用databricks csv api的情況下將CSV文件直接讀入spark數據框?
我知道有databricks csv api,但我不能使用它的api ..
我知道有案例類使用和映射cols根據cols(0)職位,但問題是我有超過22 coloumns因此我不能使用案例類,因爲在案例類中,我們限制只使用22種顏色。 我知道有structtype來定義模式,但我覺得這將是非常長的代碼來定義結構類型40 coloumns。 我正在尋找使用讀取方法讀入數據框的東西,但在火花中,我們沒有直接支持csv文件,我們需要解析它?但如果我們有超過40列的話?如何在不使用databricks csv api的情況下將CSV文件直接讀入spark數據框?
1
A
回答
0
我也研究過這個,並最終編寫了一個python腳本來爲解析(行)函數和模式的定義生成scala代碼。是的,這可能會變成一小塊代碼。
如果您的數據不是太大,您可能會走的另一條路徑:使用python熊貓! 啓動py-spark,將數據讀入熊貓數據框,然後從中創建一個spark數據框。保存它(例如作爲parquet文件)。並在scala-spark中加載該鑲木地板文件。
1
似乎scala 2.11.x起,arity limit issue已修復。請看看https://issues.scala-lang.org/browse/SI-7296
爲了克服這一點在< 2.11見my answer,它採用extends Product
和覆蓋方法productArity
,productElement
,canEqual (that:Any)
相關問題
- 1. 直接在Azure Datalake中將Python數據框寫入CSV文件
- 2. 使用Spark 2.0將csv讀入RDD
- 3. 如何將數據框保存到spark 1.6中的csv文件?
- 4. 如何在不導入.csv模塊/庫的情況下從.csv文件加載數據
- 5. 如何將csv直接加載到Spark數據集中?
- 6. 從CSV文件創建Spark數據集
- 7. 將CSV數據讀入下標集
- 8. Python - 將數據框寫入csv文件
- 9. Get CSV到Spark數據框
- 10. Spark:使用標題讀取CSV文件
- 11. 在不知道結構的情況下將CSV讀取到數據表中
- 12. Databricks Spark CSV標題分隔符
- 13. Spark,databricks,保存爲CSV無列名
- 14. 將.csv文件讀入MATLAB
- 15. 如何在不使用databricks lib的情況下將列標題添加到Spark SQL查詢結果?
- 16. 將csv文件讀入DataTable
- 17. 將多個csv文件有效地讀入熊貓數據框
- 18. 使用C#將csv文件讀入DataTable?
- 19. 將CSV文件數據直接插入到mysql中,
- 20. 如何將CSV文件讀入R?
- 21. 如何將csv文件數據讀入數組?
- 22. 如何將CSV文件中的股票數據讀入netlogo?
- 23. 如何在不知道使用java知道頭文件的情況下讀取csv文件?
- 24. 如何將CSV數據從變量下載到csv文件?
- 25. 如何從hdfs將二進制文件讀入Spark數據框?
- 26. 使用Spark讀取CSV
- 27. Spark CSV:在不更改特定列的情況下將數據插入到現有表中
- 28. 將csv文件讀入文本文件
- 29. 將CSV數據導入CSV
- 30. 如何使用pandas.read_csv將數據從CSV文件插入數據框?
有什麼不對databricks CSV API? – Himaprasoon
@Himaprasoon,databricks csv api沒有錯。事實上,我必須寫一個認證hortonworks hdpcd火花,在考試中,他們不提供databricks api ..只是火花內置的API我們可以使用... –
是我的回答有用嗎?如果不是,如果還有其他東西,你會發現什麼? –