什麼是實現GB中大數據集的最大似然估計的最佳/首選方法

我有一個以千兆字節（GB）爲單位的數據集，並且想要估計缺失值的參數。什麼是實現GB中大數據集的最大似然估計的最佳/首選方法

在機器學習中有一種稱爲MLE（最大似然估計）的算法，可用於該算法。
由於R可能無法在如此龐大的數據集上工作，那麼哪個庫最適合它呢？

來源

2013-01-18 Nishu Tayal

只是爲了澄清：你是否試圖估計統計分佈的參數？參數確定後，您想使用分佈來估計丟失的數據嗎？ – greeness

通過wiki:MLE：

在統計學中，最大似然估計（MLE）是估計統計模型的參數的方法。當應用於數據集並給出統計模型時，最大似然估計提供模型參數的估計值。

一般需要兩個步驟，然後才能應用MLE：

獲得的數據集
確定一個統計模型

在這個時候，如果你能獲得解析形式對於MLE估計的解決方案，只是將數據流式傳輸到mle-estimate計算，例如，用於高斯分佈，以估計平均值，您只需累加總和，並保持計數和樣本均值爲ml E-估計。

但是，當模型涉及許多參數，並且其pdf是高度非線性的。在這種情況下，必須使用非線性優化算法來數值搜索MLE估計。如果您的數據量很大，請嘗試stochastic gradient descent，在一個示例中，真實漸變近似爲漸變。當算法掃過訓練集時，它會爲每個訓練樣例執行更新公式。因此，您仍然可以以多種掃描方式一次將數據流式傳輸到更新程序。這樣，內存約束根本不應該成爲問題。

來源

2013-01-21 03:08:30 greeness

什麼是實現GB中大數據集的最大似然估計的最佳/首選方法

回答

相關問題