0
我試圖用這個模式來轉換一個CSV文件:PySpark架構無法識別
sch = StructType([
StructField("id", StringType(), True),
StructField("words", ArrayType((StringType())), True)
])
dataFile = 'mycsv.csv'
df = sqlContext.read.option("mode", "DROPMALFORMED").schema(sch).option("delimiter", format(",")).option("charset", "UTF-8").load(dataFile, format='com.databricks.spark.csv', header='true', inferSchema='false')
mycsv.csv包含:
id , words
a , test here
我希望DF包含[Row(id='a', words=['test' , 'here'])]
但而不是它的空陣列df.collect()
返回[]
我的模式是否正確定義?