對於文本分類中特徵提取所需的詞彙集的定義,我有一個問題。 在一個實驗中,我可以想到兩種方法:在文本分類中定義詞彙大小
1.使用訓練數據和測試數據定義詞彙大小,以便在測試過程中不會將來自測試數據的單詞視爲「未知」 。
2.根據訓練數據中的數據定義詞彙量大小,並將測試數據中不會出現在訓練數據中的每個詞語視爲「未知」。
乍一看,更科學的方法是第二個。但值得注意的是,雖然我們無法在實際系統中知道詞彙的真實大小,但似乎沒有問題將詞彙大小設置得比訓練數據中出現的大小稍大一些以涵蓋更大的問題。這是有用的,因爲它實際上將不同的未知單詞視爲不同,而不是將它們總結爲「未知」。這有什麼理由不實際嗎?
機器學習新手。非常感謝。