2016-03-05 41 views
11

我是機器學習和自然語言處理的新手。機器學習中的參數,功能和類別之間的區別

我總是在這三個術語之間混淆?

從我的理解:

class:我們的模型輸出的各種類別。給定一個人的名字,確定他/她是男性還是女性?

可以說我正在使用樸素貝葉斯分類器。

什麼是我的功能和參數?

此外,上述單詞的一些別名可以互換使用。

謝謝

回答

12

讓我們用一個人的性別分類的例子。你對課堂的理解是正確的!給定輸入觀察值,我們的樸素貝葉斯分類器應輸出一個類別。這個班是那個班。

功能:樸素貝葉斯分類器或任何常規ML分類算法中的特徵是我們選擇用於定義輸入的數據點。對於一個人的例子,我們不可能輸入關於一個人的所有數據點;相反,我們選擇一些特徵來定義一個人(比如說「身高」,「體重」和「足部尺寸」)。具體而言,在Naive Bayes Classifier中,我們所做的關鍵假設是這些功能是獨立的(它們不會相互影響):一個人的身高不影響體重並不影響腳的大小。這個假設可能是或者不是真的,但是對於樸素貝葉斯,我們假設它是真的。在你的例子中,輸入只是名稱的特殊情況下,功能可能是字母頻率,元音數量,名稱長度或後綴/前綴。

參數:樸素貝葉斯中的參數是我們嘗試分類的真實分佈的估計值。例如,我們可以說大約有50%的人是男性,男性身高的分佈是高斯分佈,平均值爲5'7「,標準差爲3」。參數將是50%估計值,5'7「平均估計值和3」標準偏差估計值。

別名:功能也稱爲屬性。我不知道'參數'有任何常見的替換。

我希望這有幫助!

+0

謝謝你的驚人答案。對答案稍有想法,但仍然得到證實。謝謝。 –

+1

不客氣,很高興這有幫助! – txizzle

6

@txizzle很好地解釋了樸素貝葉斯的情況。在更一般的意義上:

類:您的數據的輸出類別。您也可以調用這些類別。數據上的標籤將指向其中一個類(當然,如果它是分類問題)。

特徵:定義您的問題的特徵。這些也被稱爲屬性。

參數:您的算法試圖調整以建立精確模型的變量。

舉個例子,讓我們假設你正試圖根據他/她的本科生GPA,考試成績,建議分數,項目等各種因素來決定是否允許學生上學。在這種情況下,上面提到的因素是你的特徵/屬性,無論學生是否被允許成爲你的兩個班級,決定這些特徵如何結合在一起以獲得你的輸出的數字成爲你的參數。參數實際表示取決於您的算法。對於神經網絡,它是突觸鏈路上的權重。同樣,對於迴歸問題,參數是您的要素合併時的係數。

1

舉一個簡單的線性分類problem-

Y = {0,如果5X-3> = 0否則1}

這裏y是類,x爲特徵,5,3是參數。