2012-07-27 43 views
3

我最近在玩二元情感分析中使用的衆所周知的電影評論數據集。它由1,000個正面評論和1,000個負面評論組成。在研究具有單字特徵的各種特徵編碼時,我注意到所有以前的研究出版物都使用它們的歐幾里德標準對矢量進行歸一化,以便將它們縮放到單位長度。爲什麼要對SVM特徵向量執行餘弦歸一化?

但是,在使用Liblinear的實驗中,我發現這種長度歸一化顯着降低了分類精度。我研究了向量,我認爲這是原因:向量空間的維度是,例如,10,000。結果,矢量的歐幾里得範數與個體投影相比非常高。因此,在歸一化之後,所有矢量在每個軸上都得到非常小的數字(即,軸上的投影)。

這讓我感到驚訝,因爲本領域的所有出版物聲稱它們執行餘弦歸一化,而我發現不歸一化可以產生更好的分類。

因此,我的問題:如果我們不對SVM特徵向量執行餘弦規範化,是否有任何特定的缺點? (基本上,我正在尋求一個數學解釋這種正常化的需要)。

+3

在低維空間中,標準化具有將維度減1的缺點。但是這種減少在高維度上應該不重要。 – 2012-07-27 08:19:50

回答

1

在仔細閱讀了LibSVM的手冊後,我意識到爲什麼標準化與而不是標準化相比產生的準確性要低得多。他們建議將數據縮放到[0,1]或[-1,1]區間。這是我沒有做過的事情。擴大規模將解決太多數據點非常接近於零的問題,同時保留長度歸一化的優勢。