Q

忽略測試數據上丟失字詞特徵的方法

2013-07-19 39 views 1 likes

1

我正在處理文字分類問題，並且在某些功能上缺少值時遇到問題。忽略測試數據上丟失字詞特徵的方法

我正在計算來自標記訓練數據的單詞概率。

例如;

讓word foo屬於A類100次，屬於B類200次。在這種情況下，我發現類概率向量爲[0.33,0.67]，並將其與單詞一起提供給分類器。

問題在於，在測試集中，有些詞在訓練數據中沒有看到，所以它們沒有概率向量。

我能爲這個問題做些什麼？

我試過給所有單詞的平均類概率向量的缺失值，但它並沒有提高準確性。

有沒有辦法讓分類器在評估過程中忽略某些功能，只是針對沒有賦予功能值的特定實例？

問候

2013-07-19 manuyavuz

A

回答

1

有許多方法來實現這一

所有子集功能你必須創建和火車分類。您可以使用與主分類器的tre訓練相同的數據在子集上訓練分類器。

對於每個示例，請仔細看看它具有的功能，並使用適合他的分類器更好。不要試圖用分類器做一些提振。

只需爲不能分類的樣品創建一個特殊的類。或者你的實驗結果太差，這麼小的功能。

有時人類也無法成功地對樣本進行分類。在許多情況下，不能分類的樣品應該被忽略。問題不在分類器中，而是在輸入中，或者可以由上下文來解釋。

正如nlp的觀點，很多單詞在許多應用中都有相似的含義/用法。所以你可以使用詞幹化/詞法化來創建一類詞。

您還可以使用syntaxic校正，同義詞，翻譯（這個詞來自世界的另一部分？）。

如果這個問題對你來說很重要，那麼你將以前面3個點的組合結束。

2013-07-19 18:51:23 Galigator

相關問題