我想一個簡單的例子,如:AnalysisException:U「無法解析‘名’給定的輸入列:[名單]在sqlContext火花
data = sqlContext.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/samples/population-vs-price/data_geo.csv")
data.cache() # Cache data for faster reuse
data = data.dropna() # drop rows with missing values
data = data.select("2014 Population estimate", "2015 median sales price").map(lambda r: LabeledPoint(r[1], [r[0]])).toDF()
它運作良好,但是當我嘗試非常類似的東西,如:
data = sqlContext.read.format("csv").option("header", "true").option("inferSchema", "true").load('/mnt/%s/OnlineNewsTrainingAndValidation.csv' % MOUNT_NAME)
data.cache() # Cache data for faster reuse
data = data.dropna() # drop rows with missing values
data = data.select("timedelta", "shares").map(lambda r: LabeledPoint(r[1], [r[0]])).toDF()
display(data)
它引發錯誤: AnalysisException:U「無法解析 'timedelta' 給定的輸入列:[data_channel_is_tech,...
場外我進口LabeledPo int和LinearRegression
什麼可能是錯誤的?
即使是簡單的情況
df_cleaned = df_cleaned.select("shares")
提出相同AnalysisException(錯誤)。
*請注意:df_cleaned.printSchema()效果很好。