2014-12-23 82 views
0

我剛剛閱讀了this關於使用Mahout進行邏輯迴歸的有趣文章。該教程對我來說很清楚......但真正的用例會如何?例如,當[網絡]應用程序首次啓動時,需要處理一些培訓數據...並將結果保存在OnlineLogisticRegression實例中。然後,爲了測試新數據,只需調用OnlineLogisticRegression.classifyFull並查看數據落入給定分類中的0到1 —之間的值表示的概率—。使用Mahout進行Logistic迴歸

但是如果我想改進一個模型並在[web]應用程序在線時使用附加數據進行訓練呢?這個想法應該是每週一次或多次以類似的方式訓練模型,以提高準確性。什麼是實施這種機制的正確方法?是否有重大的性能問題?

回答

0

不知道你的用例是什麼,但我已經實現瞭如下。 我用了Naivebayes。當前使用我的模型在線。 現在過了15天后,我用新的訓練數據添加到以前的訓練數據中,並生成一個新的模型。一旦創建新模型,它就會被cron替換爲在線模型。