1
我正在處理文字分類問題,並且在某些功能上缺少值時遇到問題。忽略測試數據上丟失字詞特徵的方法
我正在計算來自標記訓練數據的單詞概率。
例如;
讓word foo屬於A類100次,屬於B類200次。在這種情況下,我發現類概率向量爲[0.33,0.67],並將其與單詞一起提供給分類器。
問題在於,在測試集中,有些詞在訓練數據中沒有看到,所以它們沒有概率向量。
我能爲這個問題做些什麼?
我試過給所有單詞的平均類概率向量的缺失值,但它並沒有提高準確性。
有沒有辦法讓分類器在評估過程中忽略某些功能,只是針對沒有賦予功能值的特定實例?
問候