我是新來的pyspark,面臨一個奇怪的問題。我試圖在加載CSV數據集時將某列設置爲非空值。我可以重現我的情況有一個非常小的數據集(test.csv
):pyspark:StructField(...,...,False)總是返回`nullable = true`而不是`nullable = false`
col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53
有一個在第5行,第2列空值,我不想讓我的DF內該行。我將所有字段設置爲非空(nullable=false
),但我得到一個架構,其中所有三列都有nullable=true
。即使我將所有三列設置爲非空值,也會發生這種情況!我正在運行Spark的最新版本2.0.1。
下面的代碼:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
struct = StructType([ StructField("col1", StringType(), False), \
StructField("col2", StringType(), False), \
StructField("col3", StringType(), False) \
])
df = spark.read.load("test.csv", schema=struct, format="csv", header="true")
df.printSchema()
回報:
root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
和df.show()
回報:
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
| 51|null| 53|
+----+----+----+
,同時我希望這樣的:
root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
+----+----+----+