我正在嘗試使用支持向量機(SVM)進行文檔分類。我擁有的文件是電子郵件的收集。我有大約3000個文檔來訓練SVM分類器,並且有大約700個需要分類的測試文檔集。使用LSA/SVD的文檔分類
我最初使用二進制DocumentTermMatrix作爲SVM訓練的輸入。測試數據的分類準確度達到了81%左右。 DocumentTermMatrix在刪除幾個停用詞後使用。因爲我想提高這個模型的準確性,我嘗試過使用基於LSA/SVD的降維,並使用由此產生的簡化因子作爲分類模型的輸入(我嘗試了20,50,100和200個奇異值原包〜3000字)。分類的表現在每種情況下都惡化。 (使用LSA/SVD的另一個原因是克服了65個響應變量之一的內存問題)。
有人可以提供一些關於如何提高LSA/SVD分類性能的指針嗎?我意識到這是一個沒有任何特定數據或代碼的普遍問題,但會從專家那裏開始調試的一些意見。
僅供參考,我使用的R用做文本預處理(包:TM,雪球,LSA)和建築分類模型(包:kernelsvm)
謝謝。
您是否在分類過程中使用了相同的低級別轉換?您的測試文檔向量也必須減小尺寸。 – adi