2013-08-12 61 views
0

我需要通過培訓示例學習分類器並對測試示例進行分類。我的例子是長文本。我想使用一個特徵集,其中第i個元素是我最常用的單詞,例如,第一個特徵是最頻繁的單詞。WEKA培訓示例和測試示例不匹配

我的問題是,如果我使用字符串功能,那麼我不能使用我想要的分類器。如果我使用名義特徵,我會將第一個特徵作爲訓練示例中最常用的單詞。對於測試示例,第一個特徵是我測試示例中最常用的單詞。所以這些功能是不同的,當我想使用分類器時,weka說它不匹配。

您有解決方案嗎?

我希望能夠使用每個文本中50個最常用單詞的特徵集,並且訓練樣例的大小不應受測試示例的影響。此外,我想能夠使用多種分類器(如smo,naive-bayes,j48等)。

謝謝!

回答

0

對於任何預處理任務,您應該使用'FilteredClassifier'。因此,實際的預處理操作僅基於訓練集來確定,然後應用於測試數據。例如:如果以這種方式進行離散化處理,實際的分箱將僅取決於訓練數據中的屬性值。然而,使用這些分箱的離散化將應用於測試數據。