2013-07-20 26 views
2

我可以理解爲什麼軟邊緣支持向量機會受到不平衡訓練集的影響:最小化優化問題的誤差可能導致將所有數據訓練分類爲負數(如果|反例| | |正例| |)。SVM硬邊緣:爲什麼不平衡的數據集可能會導致不好的結果?

但是,在硬邊緣SVM中,我沒有鬆弛變量和C costant,所以我不想最小化錯誤,因爲硬邊緣SVM預期沒有錯誤(針對問題的定義)!硬邊緣支持向量機只是搜索支持向量,並最大化類之間的邊際支持由支持向量「識別」的超平面;現在,如果我有「支持」負支持向量(即負類支持超平面)的許多點或相同數量的正點,這些不會影響我的餘量和分離超平面;

它總是一樣的,因爲它只依賴於支持向量,並且無論增加點數,它們總是相同的!爲什麼硬邊緣SVM會受到不平衡數據集的影響,或者我的推理是錯誤的? 謝謝!

+0

您可以查看粒度SVM欠採樣(GSVM-RU)的概念,該概念說明了基於給定數據不平衡問題的支持向量的解決方案。 – soufanom

回答

4

對於一個真正的硬保證金SVM有兩種選擇對於任何數據集,不管如何的平衡:

  1. 訓練數據是完美特徵空間可分,你得到0一得到的模型訓練錯誤。
  2. 訓練數據是而不是可分離在特徵空間中,您將不會得到任何東西(無模型)。

此外,請注意,如果給定的內核足夠複雜(例如,具有非常大的伽馬的RBF),您可以在任何數據集上訓練硬邊緣SVM。由此產生的模型通常是不好的,因爲它是訓練數據的總體過擬合。

相關問題