我正在嘗試使用Spark-CSV包(https://github.com/databricks/spark-csv)將csv
文件讀入Spark DataFrames
。Spark-csv數據源:推斷數據類型
一切正常,但所有列都假設爲StringType
。
如Spark SQL文檔(https://spark.apache.org/docs/latest/sql-programming-guide.html)所示,對於內置源(如JSON),可以自動推斷包含數據類型的模式。
是否可以自動推斷CSV文件中列的類型?
。 1. StringTypes是SparkSQL中的一個字段類型。 2.你所要求的不是很清楚,你能更具體地瞭解你正在努力實現什麼 – eliasah
我在問自動類型推斷,它可以在諸如JSON之類的內置數據源中使用。即如果從json文件中使用'sqlContext.jsonFile(「...」)'創建df,並指定一個整數和一個字符串字段 - 這些類型將在模式中定義。這是可能的CSV數據源格式? –