0

假設我有一個由(x,y)樣本製作的訓練集。何時在機器學習中使用生成算法?

要應用生成算法,假設高斯歧視,我必須假設

p(x|y) ~ Normal(mu, sigma)每一個可能的西格瑪

或者我只需要我知道如果給ÿx ~ Normal(mu, sigma)

我該如何評估p(x | y)是否符合多元正態分佈(足以達到閾值)以使用生成算法?

回答

5

這是很多問題。

要應用生成算法,假設高斯 歧視,我必須假設

P |爲每一個可能的西格瑪

(x和y)〜正態分佈(mu,西格瑪)不,你必須假設對於一些mu,sigma對來說這是真的。在實踐中,你不知道mu和sigma是什麼,所以你需要估計它(頻率論,最大似然/最大後驗概率估計),或者甚至更好地將你對參數估計的不確定性納入預測(貝葉斯方法)。

如何評估p(x | y)是否遵循多元正態分佈?

古典,使用合適的測試良好。但是,如果x的維度超過一小部分,那麼這將不起作用,因爲標準測試涉及倉中物品的數量,並且高維中需要的倉的數量是天文數字,因此您的預期計數非常低。

一個更好的主意是說以下幾點:我對模擬x的(條件)分佈有何選擇?您可以使用模型比較技術比較這些選項。閱讀模型檢查和比較。

最後,你的最後一點:

不夠好(達到閾值),以我使用生成算法?

的許多生成方法,包括Fisher的線性判別分析,例如,以及樸素貝葉斯分類器的悖論,是分類可以工作得很好即使模型較差的數據。沒有特別合理的理由說明爲什麼會出現這種情況,但許多人認爲它是經驗性的。無論它是否有效,都可以比假設分佈很好地解釋數據更容易檢查:只需將數據分解爲訓練和測試,然後查明!

+0

這真是一個很好的答案|我仍然需要弄清楚如何評估p(x | y)的分佈 - 用Shapiro-Wilk或其他方法。但你給了我一個很好的解釋和很好的提示! Tnx分配! –