我想使用矢量空間模型在SVM Light中構建SVM分類器。我有1000個文檔和一個術語詞典,我將用它來向量化每個文檔。在1000個文檔中,600個將用於我的訓練集,而其餘400個將被均分(每個200個)用於我的交叉驗證集和我的測試集。我是否使用訓練集中的相同idf來執行交叉驗證?
現在假設我要訓練我的SVM分類器,使用我的訓練集600(使用tf-idf向量化)來生成分類模型。
當我將模型應用於交叉驗證集時,是否會使用相同的idf(因爲模型對應於我的訓練集),還是需要基於交叉驗證集計算新的idf?另外,如果我要將模型應用於單個文檔,我將如何應用idf,因爲此集合只包含1個文檔?
感謝您的澄清:) – Justin
非常歡迎您! – lennon310