2013-01-18 41 views
3

我有一個以千兆字節(GB)爲單位的數據集,並且想要估計缺失值的參數。什麼是實現GB中大數據集的最大似然估計的最佳/首選方法

在機器學習中有一種稱爲MLE(最大似然估計)的算法,可用於該算法。
由於R可能無法在如此龐大的數據集上工作,那麼哪個庫最適合它呢?

+0

只是爲了澄清:你是否試圖估計統計分佈的參數?參數確定後,您想使用分佈來估計丟失的數據嗎? – greeness

回答

1

通過wiki:MLE

在統計學中,最大似然估計(MLE)是估計統計模型的參數的方法。當應用於數據集並給出統計模型時,最大似然估計提供模型參數的估計值。

一般需要兩個步驟,然後才能應用MLE:

  • 獲得的數據集
  • 確定一個統計模型

在這個時候,如果你能獲得解析形式對於MLE估計的解決方案,只是將數據流式傳輸到mle-estimate計算,例如,用於高斯分佈,以估計平均值,您只需累加總和,並保持計數和樣本均值爲ml E-估計。

但是,當模型涉及許多參數,並且其pdf是高度非線性的。在這種情況下,必須使用非線性優化算法來數值搜索MLE估計。如果您的數據量很大,請嘗試stochastic gradient descent,在一個示例中,真實漸變近似爲漸變。當算法掃過訓練集時,它會爲每個訓練樣例執行更新公式。因此,您仍然可以以多種掃描方式一次將數據流式傳輸到更新程序。這樣,內存約束根本不應該成爲問題。

相關問題