我已經使用weka進行文本分類。首先,我使用了StringToWordVector過濾器,並將過濾後的數據與SVM分類器(LibSVM)一起用於交叉驗證。後來我看了一篇博客文章here在weka中使用過濾分類器比普通分類器有什麼效果
它說不適合首先使用過濾器然後執行交叉驗證。相反,它建議使用FilteredClassifer。他的理由是:
兩週前,我寫了一篇關於如何在WEKA中鏈接過濾器和分類器的文章,以避免在對文本集合進行實驗時產生誤導性結果。問題是,在您的數據中使用N Fold Cross Validation(CV)時,您不應該對整個數據集合應用StringToWordVector(STWV)過濾器,然後對您的數據執行CV評估,因爲您會使用單詞存在於您的測試子集中(但不包含在您的訓練子集中)。
我無法理解背後的原因。任何人都知道嗎?