0
我需要通過培訓示例學習分類器並對測試示例進行分類。我的例子是長文本。我想使用一個特徵集,其中第i個元素是我最常用的單詞,例如,第一個特徵是最頻繁的單詞。WEKA培訓示例和測試示例不匹配
我的問題是,如果我使用字符串功能,那麼我不能使用我想要的分類器。如果我使用名義特徵,我會將第一個特徵作爲訓練示例中最常用的單詞。對於測試示例,第一個特徵是我測試示例中最常用的單詞。所以這些功能是不同的,當我想使用分類器時,weka說它不匹配。
您有解決方案嗎?
我希望能夠使用每個文本中50個最常用單詞的特徵集,並且訓練樣例的大小不應受測試示例的影響。此外,我想能夠使用多種分類器(如smo,naive-bayes,j48等)。
謝謝!