何時在機器學習中使用生成算法？

假設我有一個由（x，y）樣本製作的訓練集。何時在機器學習中使用生成算法？

要應用生成算法，假設高斯歧視，我必須假設

p(x|y) ~ Normal(mu, sigma)每一個可能的西格瑪

或者我只需要我知道如果給ÿx ~ Normal(mu, sigma)？

我該如何評估p（x | y）是否符合多元正態分佈（足以達到閾值）以使用生成算法？

2013-11-15 Gabriele B

這是很多問題。

要應用生成算法，假設高斯歧視，我必須假設

P |爲每一個可能的西格瑪

（x和y）〜正態分佈（mu，西格瑪）不，你必須假設對於一些mu，sigma對來說這是真的。在實踐中，你不知道mu和sigma是什麼，所以你需要估計它（頻率論，最大似然/最大後驗概率估計），或者甚至更好地將你對參數估計的不確定性納入預測（貝葉斯方法）。

如何評估p（x | y）是否遵循多元正態分佈？

古典，使用合適的測試良好。但是，如果x的維度超過一小部分，那麼這將不起作用，因爲標準測試涉及倉中物品的數量，並且高維中需要的倉的數量是天文數字，因此您的預期計數非常低。

一個更好的主意是說以下幾點：我對模擬x的（條件）分佈有何選擇？您可以使用模型比較技術比較這些選項。閱讀模型檢查和比較。

最後，你的最後一點：

不夠好（達到閾值），以我使用生成算法？

的許多生成方法，包括Fisher的線性判別分析，例如，以及樸素貝葉斯分類器的悖論，是分類可以工作得很好即使模型較差的數據。沒有特別合理的理由說明爲什麼會出現這種情況，但許多人認爲它是經驗性的。無論它是否有效，都可以比假設分佈很好地解釋數據更容易檢查：只需將數據分解爲訓練和測試，然後查明！

2013-11-15 14:15:39

這真是一個很好的答案|我仍然需要弄清楚如何評估p（x | y）的分佈 - 用Shapiro-Wilk或其他方法。但你給了我一個很好的解釋和很好的提示！ Tnx分配！ –

回答