我得到了矛盾的結果,在我看來應該產生相同的輸出兩種方法。有人能指出這些差異是什麼,因爲我無法理解它:S元過濾分類器和手動過濾分類器給出不同的結果
我正在研究Drexel_Stats.arff。我使用10-fold交叉驗證的1-NN分類器。 沒有任何預處理,這是混淆矩陣獲得:
a b <-- classified as
14 3 | a = Win
5 1 | b = Loss
爲了讓我用更好的成績:
weka.attributeSelection.InfoGainAttributeEval
weka.attributeSelection.Ranker -T -1.0 -N 5
獲得數據集的5種最挑剔的功能。然後我手動擺脫了所有其他功能並重新運行我的1-NN,我得到了這些結果:
a b <-- classified as
16 1 | a = Win
1 5 | b = Loss
現在,這地方變得混亂(至少對我來說)。我試圖使用元過濾分類器來節省手動丟棄功能的麻煩。以下是我使用(從GUI複製):
weka.classifiers.meta.FilteredClassifier
-F "weka.filters.supervised.attribute.AttributeSelection
-E \"weka.attributeSelection.InfoGainAttributeEval \"
-S \"weka.attributeSelection.Ranker -T -1.0 -N 5\""
-W weka.classifiers.lazy.IB1 -D
我理解爲這是以前操作的自動化,但實際上我得到這個結果的時間是不同的:
a b <-- classified as
15 2 | a = Win
4 2 | b = Loss
什麼我錯了嗎?
由於
編輯:這裏是WEKA輸出的一部分:
=== Attribute Selection on all input data ===
Search Method:
Attribute ranking.
Attribute Evaluator (supervised, Class (nominal): 39 Outcome):
Information Gain Ranking Filter
Ranked attributes:
0.828 1 Opponent
0.469 38 Opp_Steals
0.42 24 Opp_Field_Goal_Pct
0.331 15 Def_Rebounds
0.306 28 Opp_Free_Throws_Made
Selected attributes: 1,38,24,15,28 : 5
Header of reduced data:
@relation 'Basketball_Statistics-weka.filters.unsupervised.attribute.Remove-V-R1,38,24,15,28,39'
@attribute Opponent {Florida_Gulf_Coast,Vermont,Penn,Rider,Toledo,Saint_Joseph,Fairleigh_Dickinson,Villanova,Syracuse,Temple,George_Mason,Georgia_State,UNC_Wilmington,James_Madison,Hofstra,Old_Dominion,Northeastern,Delaware,VCU,Towson}
@attribute Opp_Steals numeric
@attribute Opp_Field_Goal_Pct numeric
@attribute Def_Rebounds numeric
@attribute Opp_Free_Throws_Made numeric
@attribute Outcome {Win,Loss}
@data
這些是在交叉驗證的每個摺疊選擇了相同的特徵?根據實例拆分可以選擇不同的功能嗎?
這很有道理。儘管如此,WEKA仍然存在一個奇怪之處,請參閱問題中的編輯。 – Renaud 2011-12-17 23:51:15