2015-01-06 52 views
1

目前我正在使用opencv中的SVM分類器進行英文字母分類。 我已經在上面的東西特徵長度如何依賴於SVM分類器中的預測

  1. 做以下疑點特徵向量的長度如何取決於分類的? (如果特徵長度增加會發生什麼(我當前的特徵長度爲125))

  2. 預測所花費的時間取決於用於訓練的數據數量?

  3. 爲什麼我們需要對特徵向量進行歸一化(這會提高預測準確性和預測類所需的時間)?

  4. 如何確定用於歸一化特徵向量的最佳方法?

回答

2

1)的特徵長度沒關係本身,重要的是功能預測質量

2)不,它不依賴於樣本的數量,但要看的功能數(預測通常是非常快的),如果特徵在值

4)基本上有標準化(平均值,STDEV)和縮放(XMAX的非常不同範圍

3)歸一化是必需的 - > 1,xmean - > -1或0) - 你可以做兩個,看看哪一個是下注ter

+0

「但它取決於特徵的數量」是否意味着特徵長度? (我從圖像中提取了不同的特徵,並將它們合併爲一個特徵向量) – Deepak

+1

@deepak是;特徵長度通常不能保證有更好的描述符,但通常需要更多數量的「魯棒性」和這樣的術語。 –

+0

@deepak:是的,更多的數字處理更多的時間;您可以考慮RFE http://scikit-learn.org/stable/modules/classes等功能選擇。HTML#模塊sklearn.feature_selection – klubow

2

當談論分類時,數據由具有許多特徵的特徵向量組成。在圖像處理中還存在映射到分類特徵向量的特徵。所以你的「特徵長度」實際上是特徵或特徵向量大小的數目。

1)功能的數量很重要。原則上更多特徵允許更好的分類,但也導致過度訓練。爲了避免後者,您可以添加更多樣本(更多特徵向量)。 2)是的,因爲預測時間取決於支持向量的數量和支持向量的大小。但由於預測速度非常快,除非您有一些實時要求,否則這不是問題。 3)雖然支持向量機作爲最大的邊緣分類器對於不同的特徵值範圍是相當穩健的,但是具有較大值範圍的特徵比具有較小範圍的特徵具有更大的權重。這尤其適用於罰款計算,如果類不是完全可分的。 4)由於支持向量機在不同的值範圍內相當強大(與面向集羣的算法相比),這不是最大的問題。通常絕對最小/最大值被縮放到-1/+ 1。如果您知道數據的預期範圍,則可以縮放該範圍,並且數據中的測量誤差不會影響縮放比例。當在迭代過程中添加拖曳數據時,固定範圍也是優選的。