分割訓練數據以訓練n個模型的最佳數量

-1

讓我們假設我們有一個巨大的數據庫爲我們提供訓練數據D和專用於機器學習問題的較小測試數據T.這些數據涵蓋了現實世界問題的許多方面，因此其結構非常不同。當我們現在用D訓練一個不接近定義的機器學習算法（神經網絡，SVM，隨機森林，...），並最終測試創建的模型對T時，我們獲得了一定的性能測量P（混淆矩陣，mse，.. ）。分割訓練數據以訓練n個模型的最佳數量

的問題：如果我能獲得更好的性能，通過將問題ITO更小的子問題，例如通過將D聚類成若干不同的訓練集D1，D2，D3，...，我怎麼能找到最佳的聚類？（簇的數量，質心，......）

以一種蠻力的方式，我正在考慮使用帶有隨機數量的簇C的kNN聚類，這導致了訓練數據D1，D2 ...特區。我現在將訓練C個不同的模型，並最終對訓練集T1，T2，...，Tc進行測試，其中相同的kNN聚類已用於將T分割成C個測試集T1，...，Tc。

這給了我最佳的整體性能平均的組合（P1，P2，...，PC）將是一個我想選擇。

我只是想知道你是否知道比暴力破解這個更復雜的方式？

非常感謝提前

來源

2017-02-28 Marcus

這沒有多大意義。試着對你正在做的事情更正式。它目前聽起來像：通過kNN將一些巨大的數據分成較小的數據，這些數據在非常不同的數據集中起作用;在這些中學習一些分類器並採取最好的措施。顯然，這是接近可能的最壞的方法，因爲泛化被殺死了。隨機選擇數據集會更好（沒有kNN）。 – sascha

隨機選擇數據集是例如隨機森林確實如此，我意識到它的好處。但是，無論如何，將一個大問題分解爲子問題應該使子問題處理更容易。你說的對，單一模型在泛化上差得多，因爲它只處理整個可能性空間的一小部分。這就是爲什麼有一個很好的預選步驟是非常重要的，這個步驟能夠正確地聚集新的傳入數據。 – Marcus

想象一個問題，應該區分不同的布塊。襯衫褲子，西裝裙子等等。現在每個不同的類別都有子類別。褲子可以用牛仔褲，cort，西裝褲等等來區分，而不是學習整個數據，我只能爲褲子設計一個單一的模型，現在減少的問題是區分牛仔褲和cort等。現在，預處理步驟，可以區分褲子和其他部分。只有當我確定它是褲子時，我纔會使用褲子模型。 – Marcus

聚類很難。

比分類更難，因爲你沒有標籤來告訴你，如果你正在做的好，或者沒有很好的。它不能做魔術，但它需要你仔細選擇參數並評估結果。

你不能只是轉儲數據爲k-手段和期待任何事出來有用。你首先需要真正仔細地清理和預處理你的數據，然後你可能會簡單地發現它實際上只是一個單個大塊...

此外，如果聚類運行良好，並且訓練分類器獨立地在每個羣集上，那麼每個分類器將錯過關鍵數據。結果可能表現真的很糟糕！

如果您只想訓練部分數據，請使用隨機森林。

但它聽起來像你對分級分類方法更感興趣。如果您有良好的層次結構信息，這可能會奏效。你首先要在分類上訓練一個分類器，然後再在分類中訓練一個分類器才能獲得最終的分類。

來源

2017-03-13 21:30:22

分割訓練數據以訓練n個模型的最佳數量

回答

相關問題