2013-04-08 19 views
2

我有一組向量中的數據。如果我繪製一張我能看到的數據的直方圖(通過巧妙的檢查),數據是按三種分佈的總和分佈的;基於matlab中的分佈選擇數據

一個正態分佈以x_1爲中心,方差爲s_1; 一個正態分佈以x_2爲中心,方差爲s_2; 一次對數正態分佈。

我的數據顯然是「真實」數據的一個子集。

我想要做的是從我的數據中隨機抽取一部分數據,以確保得到的子集是原始數據的合理代表性樣本。

我想在matlab中儘可能輕鬆地做到這一點,但對於統計和matlab都是新的,我不確定從哪裏開始。

謝謝你的任何幫助:)

+0

也許屬於[交叉驗證](http://stats.stackexchange.com/)? – Phonon 2013-04-08 20:26:44

+1

「確保它是一個合理的代表性樣本」是什麼意思?如果你只是從你的數據集中隨機抽樣,那麼這將不是「合理的代表」? (不是一個反問的問題 - 我想讓你回答,以便我可以確定你在問什麼!) – 2013-04-08 20:57:26

+0

我同意@ChrisTaylor。如果你的子集足夠大,通常你可以假設分佈是相同的。你可以使用'randperm'函數來隨機選擇數據子集而不需要替換。 – yuk 2013-04-08 21:17:34

回答

0

如果你能確定每個3個分佈(以您可以估算其參數的意義上)的,一種方法可以選擇您的數據的隨機子集,然後嘗試估計每個分佈的參數,並查看它們是否足夠接近(根據您自己對「close」的定義),以確定原始分佈的參數。你應該多次重複這個過程,看看給定隨機子集大小的平均差異。