2013-12-12 48 views
1

我想使用矢量空間模型在SVM Light中構建SVM分類器。我有1000個文檔和一個術語詞典,我將用它來向量化每個文檔。在1000個文檔中,600個將用於我的訓練集,而其餘400個將被均分(每個200個)用於我的交叉驗證集和我的測試集。我是否使用訓練集中的相同idf來執行交叉驗證?

現在假設我要訓練我的SVM分類器,使用我的訓練集600(使用tf-idf向量化)來生成分類模型。

當我將模型應用於交叉驗證集時,是否會使用相同的idf(因爲模型對應於我的訓練集),還是需要基於交叉驗證集計算新的idf?另外,如果我要將模型應用於單個文檔,我將如何應用idf,因爲此集合只包含1個文檔?

回答

2

您可以在培訓文檔中創建idf,並在新的測試文檔到來時使用它。對於每個測試文檔,可以使用查詢中每個術語的idf爲查詢創建單詞列表。如果一個單詞不包含在idf中,則查詢將返回0.根據建立的idf獲取分類。

+0

感謝您的澄清:) – Justin

+0

非常歡迎您! – lennon310

1

您應該使用與您的訓練集相同的idf,因爲您構建的分類符對應於該idf,因此您的結果將與新的idf不同。

相關問題