我是否使用訓練集中的相同idf來執行交叉驗證？

我想使用矢量空間模型在SVM Light中構建SVM分類器。我有1000個文檔和一個術語詞典，我將用它來向量化每個文檔。在1000個文檔中，600個將用於我的訓練集，而其餘400個將被均分（每個200個）用於我的交叉驗證集和我的測試集。我是否使用訓練集中的相同idf來執行交叉驗證？

現在假設我要訓練我的SVM分類器，使用我的訓練集600（使用tf-idf向量化）來生成分類模型。

當我將模型應用於交叉驗證集時，是否會使用相同的idf（因爲模型對應於我的訓練集），還是需要基於交叉驗證集計算新的idf？另外，如果我要將模型應用於單個文檔，我將如何應用idf，因爲此集合只包含1個文檔？

2013-12-12 Justin

您可以在培訓文檔中創建idf，並在新的測試文檔到來時使用它。對於每個測試文檔，可以使用查詢中每個術語的idf爲查詢創建單詞列表。如果一個單詞不包含在idf中，則查詢將返回0.根據建立的idf獲取分類。

2013-12-12 16:38:09 lennon310

感謝您的澄清:) – Justin

非常歡迎您！ – lennon310

您應該使用與您的訓練集相同的idf，因爲您構建的分類符對應於該idf，因此您的結果將與新的idf不同。

2013-12-12 16:04:55 aplassard

回答