我想使用Naive分類器模型來預測Spark dataframe
的輸出類,我使用Spark 2.1.0的結構化流式傳輸功能。 當我嘗試這樣做:將Spark數據幀轉換爲Vector
tokenizer = Tokenizer(inputCol="message",outputCol="logTokenize")
tokenizeData = tokenizer.transform(stream_df)
hashingTF = HashingTF(inputCol="logTokenize", outputCol="rawFeatures", numFeatures = 1000)
featurizedData = hashingTF.transform(tokenizeData)
stream_df = featurizedData.select("rawFeatures")
path = "/tmp/NaiveClassifier"
naive_classifier_model = NaiveBayesModel.load(spark.sparkContext,path)
predictions = naive_classifier_model.predict(stream_df)
,我得到了以下錯誤消息:
TypeError: Cannot convert type <class 'pyspark.sql.dataframe.DataFrame'> into Vector
stream_df
是一個Spark數據框,我想用一個rawFeatures
數據框和預測班列。
我想在那之前,我認爲這個問題是樸素分類器對象,當我嘗試調用'naive_classifier_model.fit(stream_df)'我得到了一個錯誤,我認爲我無法用'VectorAssembler'的輸出調用'predict'函數。是的,最好使用管道,但目前我這樣做調試 –
你有vectorassembler嘗試同樣的錯誤嗎? – Suresh