0
我試圖從數據框中創建LabeledPoint
的RDD,因此我可以稍後將它用於MlLib。pyspark MlLib:排除行中的列值
下面的代碼工作正常,如果my_target
列是sparkDF中的第一列。但是,如果my_target
列不是第一列,那麼如何修改以下代碼以排除my_target
以創建正確的LabeledPoint?
import pyspark.mllib.classification as clf
labeledData = sparkDF.rdd.map(lambda row: clf.LabeledPoint(row['my_target'],row[1:]))
logRegr = clf.LogisticRegressionWithSGD.train(labeledData)
即,row[1:]
現在排除第一列中的值;如果我想排除列的N列中的值,那麼我該怎麼做?謝謝!