2013-07-19 39 views
1

我正在處理文字分類問題,並且在某些功能上缺少值時遇到問題。忽略測試數據上丟失字詞特徵的方法

我正在計算來自標記訓練數據的單詞概率。

例如;

讓word foo屬於A類100次,屬於B類200次。在這種情況下,我發現類概率向量爲[0.33,0.67],並將其與單詞一起提供給分類器。

問題在於,在測試集中,有些詞在訓練數據中沒有看到,所以它們沒有概率向量。

我能爲這個問題做些什麼?

我試過給所有單詞的平均類概率向量的缺失值,但它並沒有提高準確性。

有沒有辦法讓分類器在評估過程中忽略某些功能,只是針對沒有賦予功能值的特定實例?

問候

回答

1

有許多方法來實現這一

  • 所有子集功能你必須創建和火車分類。您可以使用與主分類器的tre訓練相同的數據在子集上訓練分類器。

對於每個示例,請仔細看看它具有的功能,並使用適合他的分類器更好。不要試圖用分類器做一些提振。

  • 只需爲不能分類的樣品創建一個特殊的類。或者你的實驗結果太差,這麼小的功能。

有時人類也無法成功地對樣本進行分類。在許多情況下,不能分類的樣品應該被忽略。問題不在分類器中,而是在輸入中,或者可以由上下文來解釋。

  • 正如nlp的觀點,很多單詞在許多應用中都有相似的含義/用法。所以你可以使用詞幹化/詞法化來創建一類詞。

您還可以使用syntaxic校正,同義詞,翻譯(這個詞來自世界的另一部分?)。

  • 如果這個問題對你來說很重要,那麼你將以前面3個點的組合結束。