SVM硬邊緣：爲什麼不平衡的數據集可能會導致不好的結果？

我可以理解爲什麼軟邊緣支持向量機會受到不平衡訓練集的影響：最小化優化問題的誤差可能導致將所有數據訓練分類爲負數（如果|反例| | |正例| |）。SVM硬邊緣：爲什麼不平衡的數據集可能會導致不好的結果？

但是，在硬邊緣SVM中，我沒有鬆弛變量和C costant，所以我不想最小化錯誤，因爲硬邊緣SVM預期沒有錯誤（針對問題的定義）！硬邊緣支持向量機只是搜索支持向量，並最大化類之間的邊際支持由支持向量「識別」的超平面;現在，如果我有「支持」負支持向量（即負類支持超平面）的許多點或相同數量的正點，這些不會影響我的餘量和分離超平面;

它總是一樣的，因爲它只依賴於支持向量，並且無論增加點數，它們總是相同的！爲什麼硬邊緣SVM會受到不平衡數據集的影響，或者我的推理是錯誤的？謝謝！

來源

2013-07-20 volperossa

您可以查看粒度SVM欠採樣（GSVM-RU）的概念，該概念說明了基於給定數據不平衡問題的支持向量的解決方案。 – soufanom

對於一個真正的硬保證金SVM有兩種選擇對於任何數據集，不管如何的平衡：

訓練數據是完美特徵空間可分，你得到0一得到的模型訓練錯誤。
訓練數據是而不是可分離在特徵空間中，您將不會得到任何東西（無模型）。

此外，請注意，如果給定的內核足夠複雜（例如，具有非常大的伽馬的RBF），您可以在任何數據集上訓練硬邊緣SVM。由此產生的模型通常是不好的，因爲它是訓練數據的總體過擬合。

來源

2013-07-20 17:57:53

SVM硬邊緣：爲什麼不平衡的數據集可能會導致不好的結果？

回答

相關問題