2016-04-01 24 views
0

隨着Stanford Classifier有可能通過設置在屬性選項文件,如此進行10倍交叉驗證使用交叉驗證:斯坦福分類交叉驗證平均或累計指標

crossValidationFolds=10 
printCrossValidationDecisions=true 
shuffleTrainingData=true 
shuffleSeed=1 

運行此將輸出,每倍,各種指標,如精度,召回率,精度/微平均F1和宏觀平均F1。

是否有一個選項可以獲得所有10個平均或其他總分的精度/微平均F1或全部10個宏平均F1作爲輸出的一部分?

在Weka中,默認情況下,10倍交叉驗證後的輸出包括所有摺疊的平均度量。斯坦福分類器中是否也有這樣的選項?有一個最終的精度,回憶或F1分數可用和優化參數反對它像Weka是非常有用的,我想用斯坦福分類器做到這一點。怎麼樣?

回答

1

當我運行10倍時,我看到了輸出。當我運行下面的命令:

java -cp "*" edu.stanford.nlp.classify.ColumnDataClassifier -prop examples/cheese2007.prop -crossValidationFolds 10 

我看到這在輸出

[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - 181 examples in test set 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 2: TP=109 FN=6 FP=7 TN=59; Acc 0.928 P 0.940 R 0.948 F1 0.944 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 1: TP=59 FN=7 FP=6 TN=109; Acc 0.928 P 0.908 R 0.894 F1 0.901 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Accuracy/micro-averaged F1: 0.92818 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Macro-averaged F1: 0.92224 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average accuracy/micro-averaged F1: 0.93429 
[main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average macro-averaged F1: 0.92247 
+0

我看到,它打印直屬最後褶皺的平均微觀和宏觀F1(###折9之後)。有什麼方法可以獲得其他度量的平均值(精確度,召回率)?或者至少輸出csv中的所有度量? – tkja

+0

我認爲這個輸出屬於最後一個摺疊。這不是他平均的褶皺。 – hrzafer