我正在處理一個分類問題,我必須使用mllib庫。 mllib中的分類算法(比方說Logistic迴歸)需要一個RDD [LabeledPoint]。 LabeledPoint只有兩個字段,一個標籤和一個特徵向量。在進行評分時(在測試集上應用我的訓練模型),我的測試實例還有其他一些我想保留的字段。例如,測試實例看起來像這樣<id, field1, field2, label, features>
。當我創建LabeledPoint的RDD時,所有其他字段(id,field1和field2)都消失了,我無法將我的得分實例與原始實例關聯起來。我該如何解決這個問題。得分後,我需要知道ID和score/predicted_label。如何在Mllib中工作時保留記錄信息
這個問題在ML中不存在,因爲它使用DataFrame,我可以簡單地將另一列與分數一起添加到我的原始數據框中。