2016-07-13 69 views
1

我一直在學習最近使用R RecordLinkage軟件包。在與連接2點的數據集,一個8行和其他11個非常小的例子,我得到的結果:R RecordLinkage軟件包,瞭解alpha和beta錯誤

Linkage Data Set 

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches 
4 non-matches 
0 pairs with unknown status 


Weight distribution: 

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9] (0.9,1] 
     2   0   2   0   1   3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 


Classification table: 

      classification 
true status N P L 
     FALSE 4 0 0 
     TRUE 1 0 3 

什麼我不理解,是阿爾法誤差,測試誤差和精度之間的關係與分類表。凡低於來自正是未來的數字,他們如何計算:

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 

任何幫助,不勝感激

回答

2

α和β錯誤是統計的措施,更俗稱分別爲I型和II型錯誤。在統計學術語中,阿爾法誤差是拒絕零假設的概率,假設它是真的; β誤差是斷言無效假設的可能性,假設它不是真實的(比較,例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/)。

在記錄連接的情況下,無效假設是記錄對是匹配的,即兩個記錄表示相同的實體。因此,阿爾法誤差是標記一對不匹配的概率,假設它確實匹配(假否定)。該錯誤的計算公式如下:(分類爲「非鏈接」的匹配數)/(匹配數)[1]在上面的例子中,有4個匹配,其中1個不被識別,因此,alpha錯誤是1/4 = 0.25。

類似地,β誤差是將一對分類爲匹配的概率,因爲它確實是不匹配(誤報)。它被計算爲(被分類爲'鏈接'的非匹配的數量)/(不匹配的數量)。在上述例子中,不存在假陽性分類,所以測試誤差爲0。讓我們假設一個不同的分類表:

  classification 
true status N P L 
     FALSE 2 0 2 
     TRUE 1 0 3 

在這種情況下,有4個非比賽,其中2被錯誤分類作爲鏈接,所以測試版的錯誤是2/4 = 0.5。

最後,準確度只是所有配對之間正確分類的比例(請參閱https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics)。在問題的分類表中,有7個正確的分類(4個不匹配,3個匹配),因此準確性爲7/8 = 0,875。

[1]當我的意思是分類算法的結果與真實狀態相反時,我使用'(非)鏈接'而不是'(非)匹配'。

+0

謝謝,非常清楚的解釋 –