如何更改pyspark數據幀列數據類型？

改變pyspark數據幀列的類型從

df.printSchema（）

要

謝謝，爲了您的幫助，提前。

2017-09-26 user2763088

您必須用新模式替換列。 ArrayType採用兩個參數elementType和containsNull。

from pyspark.sql.types import * 
from pyspark.sql.functions import udf 
x = [("a",["b","c","d","e"]),("g",["h","h","d","e"])] 
schema = StructType([StructField("key",StringType(), nullable=True), 
        StructField("values", ArrayType(StringType(), containsNull=False))]) 

df = spark.createDataFrame(x,schema = schema) 
df.printSchema() 
new_schema = ArrayType(StringType(), containsNull=True) 
udf_foo = udf(lambda x:x, new_schema) 
df.withColumn("values",udf_foo("values")).printSchema() 



root 
|-- key: string (nullable = true) 
|-- values: array (nullable = true) 
| |-- element: string (containsNull = false) 

root 
|-- key: string (nullable = true) 
|-- values: array (nullable = true) 
| |-- element: string (containsNull = true)

來源

2017-09-26 19:08:36 ashwinids

謝謝@ashwinds - 它幫助 – user2763088

如何更改pyspark數據幀列數據類型？

回答

相關問題