2011-12-24 45 views
2

我試圖同時使用NaiveBayes分類器和NaiveBayesSimple分類器進行分類,使用以下數據標準偏差:Weka的NaiveBayes分類給予不同的(錯誤?)指/上數值

@attribute a real 
@attribute b {yes, no}                       

@data                            
1,yes 
3,yes 
5,yes 
2,yes 
1,yes 
4,no 
7,no 
5,no 
8,no 
9,no 

當使用NaiveBayesSimple分類,我得到的均值和方差值我希望:

=== Classifier model (full training set) === 

Naive Bayes (simple) 

Class yes: P(C) = 0.5  

Attribute a 
Mean: 2.4   Standard Deviation: 1.67332005 



Class no: P(C) = 0.5  

Attribute a 
Mean: 6.6   Standard Deviation: 2.07364414 

然而,在使用NaiveBayes分類的時候,我得到不同的值:

=== Classifier model (full training set) === 

Naive Bayes Classifier 

      Class 
Attribute   yes  no 
       (0.5) (0.5) 
============================= 
a 
    mean   2.5143 6.6286 
    std. dev.  1.3328 1.8286 
    weight sum   5  5 
    precision  1.1429 1.1429 

我想知道是什麼原因引起的平均值/標準偏差是?我已經閱讀了NaiveBayes分類器基於的論文:http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.8.3257,並且在那裏看不到任何理由。

謝謝

回答

0

這兩種算法彼此不同。在Weka中

樸素貝葉斯定義如下:

NAME weka.classifiers.bayes.NaiveBayes

概要類用於使用估計類樸素貝葉斯分類器。 根據對訓練數據的分析,選擇數值估計器精度值。由於這個原因,分類器不是 UpdateableClassifier(在典型用法中,它初始化時爲0 培訓實例) - 如果需要UpdateableClassifier 功能,請使用NaiveBayesUpdateable分類器。使用零 培訓實例調用buildClassifier時,NaiveBayesUpdateable分類器將對數字屬性使用默認精度0.1 。

有關樸素貝葉斯分類器的更多信息,請參閱

喬治H.約翰·帕特蘭利:在 貝葉斯分類估計連續分佈。在:第十一屆會議上的不確定性 人工智能,聖馬刁,338-345,1995。

選項調試 - 如果設置爲true,分類可以輸出更多的信息 到控制檯。

displayModelInOldFormat - 使用舊格式輸出模型。有很多類值時,舊的 格式會更好。當有更少的類和許多屬性時,新格式 會更好。

useKernelEstimator - 對數值屬性 使用內核估計器而不是正態分佈。

useSupervisedDiscretization - 使用受監督的離散化到 將數字屬性轉換爲名義屬性。

和NaiveBayesSimple定義如下:

NAME weka.classifiers.bayes.NaiveBayesSimple

建築概要級和使用一個簡單的樸素貝葉斯 classifier.Numeric屬性由建模正態分佈。

欲瞭解更多信息,請參閱

理查德·杜達,彼得·哈特(1973年)。模式分類和場景 分析。威利,紐約。

選項調試 - 如果設置爲true,分類器可能會向控制檯輸出附加信息 。