WEKA培訓示例和測試示例不匹配

我需要通過培訓示例學習分類器並對測試示例進行分類。我的例子是長文本。我想使用一個特徵集，其中第i個元素是我最常用的單詞，例如，第一個特徵是最頻繁的單詞。WEKA培訓示例和測試示例不匹配

我的問題是，如果我使用字符串功能，那麼我不能使用我想要的分類器。如果我使用名義特徵，我會將第一個特徵作爲訓練示例中最常用的單詞。對於測試示例，第一個特徵是我測試示例中最常用的單詞。所以這些功能是不同的，當我想使用分類器時，weka說它不匹配。

您有解決方案嗎？

我希望能夠使用每個文本中50個最常用單詞的特徵集，並且訓練樣例的大小不應受測試示例的影響。此外，我想能夠使用多種分類器（如smo，naive-bayes，j48等）。

謝謝！

2013-08-12 Ella Shar

對於任何預處理任務，您應該使用'FilteredClassifier'。因此，實際的預處理操作僅基於訓練集來確定，然後應用於測試數據。例如：如果以這種方式進行離散化處理，實際的分箱將僅取決於訓練數據中的屬性值。然而，使用這些分箱的離散化將應用於測試數據。

2013-08-20 18:35:58 ateich

回答