SparkML梯度推進分類器鑑於以下RDD如何培養給予RDD
training_rdd = rdd.select(
# Categorical features
col('device_os'), # 'ios', 'android'
# Numeric features
col('30day_click_count'),
col('30day_impression_count'),
np.true_divide(col('30day_click_count'), col('30day_impression_count')).alias('30day_click_through_rate'),
# label
col('did_click').alias('label')
)
我感到困惑的語法訓練梯度推進分類器。
但是,我不確定如何將我的4個特徵列放入向量中。因爲VectorIndexer假定所有功能都已在一列中。
鏈接教程假設一個'DataFrame',而不是一個'RDD'雖然。 – mtoto