2014-01-05 81 views
1

我在擬合離散分佈函數(特別是使用負二項分佈)時遇到了一些困難。這是我的設置:我有一個傳入項目的來源,每個項目都有未知的生命週期。每天都有一些過期(第一天很大一部分,第二天更多,等等)。對於現有的傳入項目來源(源超過180天),我設法用負二項分佈將新項目的生命週期建模爲可接受的錯誤(使用MLE - 最大似然估計)。爲早期數據值擬合離散(負二項式)分佈

我的問題始於傳入項目的新來源。我想在短時間內(例如5-7天后)估計它們的物品的壽命分佈。當我嘗試應用MLE時,我得到的手段明顯較低(即3而不是30)。我認爲這是因爲MLE無法理解最後一天(第7天)的質量實際上是1-CDF(6)(前6天的累積分佈函數),而且實際上也包含生物。

有沒有一種很好的方法來適應離散分佈只基於早期的數據值和其他值的質量總和?我可以爲它編寫一些優化功能,只給以前6天的權重,但我覺得它會給我次優的性能。

我對理論的解釋沒問題,但是如果你可以解決特定的函數或庫,我可以在Matlab,R,Python和C#中工作。

回答

0

您遇到的問題稱爲「審查」數據。從本質上講,只有某些項目的生命週期大於(現在減去開始時間)。你對如何糾正似然函數的猜測指向了正確的方向。我認爲審查數據通常在關於生存分析的文本中被考慮。維基百科文章[1]對於審查數據有一些簡短的評論,可能也有幫助。

在R中有一個生存分析包叫'生存'。可能有其他R包。不知道其他系統的軟件包。

[1] http://en.wikipedia.org/wiki/Survival_analysis

+0

謝謝!查找它。 –