我想將一個火花數據幀轉換爲標記點。 數據框被命名爲DF,看起來像:無法訓練pySpark支持向量機,標記點問題
+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-----+
|step1|step2|step3|step4|step5|step6|step7|step8|step9|step10|class|
+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-----+
| 14| 14| 0| 14| 14| 4| 11| 10| 0| 7| 1|
| 11| 10| 14| 0| 14| 18| 18| 14| 7| 7| 1|
| 14| 14| 14| 14| 14| 14| 7| 0| 7| 0| 1|
| 14| 14| 14| 14| 7| 7| 14| 14| 0| 11| 1|
| 14| 14| 14| 14| 14| 14| 14| 7| 14| 7| 1|
| 14| 14| 14| 14| 14| 14| 14| 0| 7| 7| 1|
| 14| 14| 14| 14| 14| 14| 14| 7| 14| 7| 1|
| 17| 14| 0| 7| 0| 0| 14| 7| 0| 7| 1|
| 14| 14| 14| 7| 7| 14| 7| 14| 14| 7| 1|
| 14| 14| 14| 14| 14| 14| 14| 7| 7| 7| 1|
| 7| 14| 14| 14| 14| 0| 14| 7| 0| 14| 1|
| 14| 14| 14| 14| 14| 0| 14| 7| 7| 7| 1|
我想要做什麼,文檔以下是:
(training, test) = DF.randomSplit([0.8,0.2])
print training
def parsePoint(line):
values = [float(x) for x in line.split(' ')]
return LabeledPoint(values[0], values[:1])
trainLabeled = training.rdd.map(parsePoint)
model = SVMWithSGD.train(trainLabeled, iterations=100)
但我得到的錯誤:
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
Spark版本2.0.1
嗨,你可以確定你正在運行的Spark版本嗎? – pltrdy