2017-06-13 59 views
0

我的代碼如下:在pyspark LogisticRegression輸出中,whick概率屬於哪個類?

from pyspark.ml.classification import LogisticRegression 
lr = LogisticRegression(featuresCol="features", labelCol="label") 
lrm = lr.fit(transformed) 
predictions = lrm.transform(transformed) 
predictions.select('probability') 

這給了我2點的概率,因爲我有2班。 但我不知道哪個類屬於哪個概率。如何找到。謝謝

回答

0

spark基於p> 0.5預測一個類。因此,從預測數據框中選擇概率和預測列。檢查數據幀的第一行,並查看哪個元素的值高於0.5並查看預測類。因此,例如元素1的值爲0.56,並預測了類別2.然後,概率的第0個元素屬於第1類概率,第1個元素爲第2個元素。

+0

在我的輸出中,對於所有記錄/行,的概率總是高於第0個元素,而不考慮預測的類別。這是否意味着第一個元素總是預測類的概率? – Ajg