pyspark：StructField（...，...，False）總是返回`nullable = true`而不是`nullable = false`

我是新來的pyspark，面臨一個奇怪的問題。我試圖在加載CSV數據集時將某列設置爲非空值。我可以重現我的情況有一個非常小的數據集（test.csv）：pyspark：StructField（...，...，False）總是返回`nullable = true`而不是`nullable = false`

col1,col2,col3 
11,12,13 
21,22,23 
31,32,33 
41,42,43 
51,,53

有一個在第5行，第2列空值，我不想讓我的DF內該行。我將所有字段設置爲非空（nullable=false），但我得到一個架構，其中所有三列都有nullable=true。即使我將所有三列設置爲非空值，也會發生這種情況！我正在運行Spark的最新版本2.0.1。

下面的代碼：

from pyspark.sql import SparkSession 
from pyspark.sql.functions import * 
from pyspark.sql.types import * 

spark = SparkSession \ 
    .builder \ 
    .appName("Python Spark SQL basic example") \ 
    .config("spark.some.config.option", "some-value") \ 
    .getOrCreate() 

struct = StructType([ StructField("col1", StringType(), False), \ 
         StructField("col2", StringType(), False), \ 
         StructField("col3", StringType(), False) \ 
        ]) 

df = spark.read.load("test.csv", schema=struct, format="csv", header="true")

df.printSchema()回報：

root 
|-- col1: string (nullable = true) 
|-- col2: string (nullable = true) 
|-- col3: string (nullable = true)

和df.show()回報：

+----+----+----+ 
|col1|col2|col3| 
+----+----+----+ 
| 11| 12| 13| 
| 21| 22| 23| 
| 31| 32| 33| 
| 41| 42| 43| 
| 51|null| 53| 
+----+----+----+

，同時我希望這樣的：

root 
|-- col1: string (nullable = false) 
|-- col2: string (nullable = false) 
|-- col3: string (nullable = false) 

+----+----+----+ 
|col1|col2|col3| 
+----+----+----+ 
| 11| 12| 13| 
| 21| 22| 23| 
| 31| 32| 33| 
| 41| 42| 43| 
+----+----+----+

來源

2016-10-07 pietrop

雖然Spark行爲（從False切換到True這裏很混亂，但這裏沒有什麼根本性的錯誤發生。 nullable參數不是約束條件，而是源和語義的反映，它啓用某些類型的優化

您聲明要避免數據中的空值。爲此，您應該使用na.drop方法。

df.na.drop()

對於處理空值，請看看在DataFrameNaFunctions文件（使用DataFrame.na屬性公開）其他方式。

CSV格式不提供任何工具允許您指定數據約束，因此根據定義，讀者不能假定輸入不爲空，並且您的數據確實包含空值。

來源

2016-10-07 12:52:25 user6910411

pyspark：StructField（...，...，False）總是返回`nullable = true`而不是`nullable = false`

回答

相關問題