2015-05-06 59 views
0

我試圖用最大似然估計來檢查某些合成數據集中冪律的存在。我遵循this paper中描述的方法。在這種方法中,將一個觀察向量x提供給代碼,然後代碼告訴給定數據將來自冪律分佈的置信度(p值)。對於單個數據集,這非常簡單。但是,現在我正在嘗試使用相同的代碼來處理稍微不同的情況。所以我對某個進程進行了很多(比如說100次)隨機模擬,並且每次都給我一個長度爲1000的向量x。然後,我對所有這100個實現的分佈進行平均,以找到平均值x,其分佈看起來大致與對數日誌情節。要使用上面的代碼找到p值,我必須輸入與平均分佈相對應的觀測值向量。但是,在這裏我遇到了問題。起初,我只是將平均分佈乘以1000,並將該產品的最接近的整數作爲觀察某個值的頻率。但是,有時在100個實現中很少有一個發生某個值,然後當我構建向量時,相應的值完全不顯示。因此,我放棄了分佈尾部的所有價值。有沒有更好的方法來計算這種平均分佈的p值來檢驗冪律假設?測試合成數據的冪律假設

+0

我投票結束這個問題作爲題外話,因爲這個問題是關於統計 – csgillespie

回答

0

因此,總結一下,您試圖從百次數據實現中找到最合適的數據?由於數據的模擬我想象噪音在所有模擬中都是不變的,而且每個模型的數字都是相同的,所以每個實現都具有相同的權重?在這種情況下,將它們集合在一起並根據參數計算每個x的y值(假設您只是將功率圖轉換爲y = mx + c)m和c,並根據樣本中的噪聲提出問題,那麼概率是多少的模擬值。對所有x一起重複這些,然後重複m和c的不同值(可能要看吉布斯採樣)。然後,您可以使用m和c的值,從而給出最高的概率。

+0

我認爲這不是我的問題的答案。 「集結」他們的含義是什麼?我拿他們的平均水平。另外,我並不是要求一種最適合的特定方法;我已經知道一個(最大似然估計)。 – Peaceful

+0

集合=將所有數據點放在一起。英語俚語,對不起。我不明白爲什麼你不能同時在所有的數據點上做MLE,所以不要平均。這將解決你的缺點問題,這可能會大大偏離你的適應。這對於交叉驗證可能是一個更好的問題。 – James