2012-07-30 72 views
0

有沒有關於使用模糊/概率標記數據的任何理論?例如,是否可以對訓練數據進行分類,訓練數據只對不同組的訓練數據的概率估計爲真?關於用概率標記數據進行學習的理論

實施例:

  • 訓練數據點A1,A2:90%的真
  • 訓練數據點B2,B2:50%的真
  • 訓練數據點C1,C2 :30%爲真

而你想知道是否有新的數據點d是真的還是假的(或者是什麼概率)?基於與訓練數據a-c的一些相似性度量。

回答

0

聽起來像古典貝葉斯問題,不是嗎?

就像給出的魚是90%海鱸魚和50%鮭魚的概率一樣,沒有任何額外信息?

這將導致任何學習算法對A類進行分類以最小化任何樣本上的錯誤。

+0

我想我的問題有點不清楚(做了一個編輯);但它實際上是具有概率標籤的訓練數據,例如,我們有90%的海貝是健康的,50%是薩爾蒙斯,這種魚(握在我手中)很可能是健康的算法,它們只能看到它們分別與低音或鮭魚有多接近。你也許還是對的?但是我覺得我需要澄清我的意圖。 – SlimJim 2012-07-30 14:12:18

+0

澄清後,問題更容易解決;你剛剛說過。你有點之間的距離。我可以建議一個聚類算法來找到一個聚類 - 在您的示例聚類a,b和c中;當你得到一個點「d」時 - 計算到集羣中心的距離並找到最接近的兩個;然後取這些距離和聚類概率(f.e.da = 1,db = 2,a = 90,b = 50),然後求解x =(a-b)/(da + db)。 P = a-x。 P是概率(在這個例子中是90-50/3):)我希望我也很清楚 – Anton 2012-07-31 16:35:48

0

例如聚類(GMM或示例)中的部分成員資格,其中每個數據點具有佈置在每個類中的概率的狄利克雷分佈。

也許東西「與標籤音學習」可以給你一個答案,大多數學習者從理論上期待乾淨的標籤數據,但後面有嘈雜的標籤工作的一些理論: Learning_with_Label_Noise

編輯

不確定的證據或軟證據。

一個模型P(X,Y),我們有y」爲約y和該軟證據來計算P(X | Y ')然後

P(X | Y')= sum_y P( x(y | y')= sum_y p(x | y,y')p(y | y')= sum_y p(x | y)p(y | y')

其中硬證據特殊情況,其中p(y | y')= dirac(y-y')