2016-02-25 37 views
0

對特定數據集應用spark的邏輯迴歸需要定義多個迭代。到目前爲止,我已經瞭解到,在每次迭代中輸出成本函數的結果可能是有用的信息來繪製。它可以用來可視化一個函數需要多少迭代才能收斂到最小。我想知道是否有辦法在spark中輸出這樣的信息?使用不同的迭代數字循環遍歷train()函數,聽起來像是一個需要大量數據集上大量時間的解決方案。很高興知道是否已經有更好的內置。感謝您對此主題的任何建議。獲取每個迭代步驟的Spark指標?

回答

1

你已經訓練模型之後(稱之爲基於myModel),有這樣的歷史,就可以得到迭代,通過迭代歷史與

myModel.summary.objectiveHistory.foreach(...) 

星火有一個很好的例子here ML文檔 - 一旦你知道正確的搜索條件。

+0

您的解決方案適用於spark.ml。由於我的邏輯迴歸實現使用spark.mllib,並沒有這樣的「摘要」選項可用,我想唯一的選擇是更改我的代碼。 – dima

+0

沒錯。 ML Lib沒有這樣的設施:它封裝了算法,這個歷史是你無法看到的東西之一。 – Prune