2012-03-02 56 views
4

我試圖使用MCS(多分類系統)做一些更好的工作,有限的數據即變得更加準確。集成學習,多分類系統

我現在正在使用K-means聚類,但可能選擇使用FCM(模糊C均值),數據聚集成組(聚類),數據可能代表任何東西,例如顏色。我首先將數據在預處理和規範化之後進行聚類,然後得到一些間隔很多的不同簇。然後,我繼續使用這些聚類作爲貝葉斯分類器的數據,每個聚類代表一種不同的顏色,並且訓練貝葉斯分類器,然後將來自聚類的數據通過單獨的貝葉斯分類器進行分類。每個貝葉斯分類器只訓練一種顏色。如果我們將色譜3-10作爲藍色13-20作爲紅色,將0-3之間的光譜作爲白色1.5,然後逐漸將藍色轉變成1.5-3,對於藍色變成紅色。

我想知道的是怎樣還是怎樣樣聚集方法(如果這是你會用什麼)可以應用,使得貝葉斯分類器可以變得更強,它是如何工作的?聚合方法是否已經知道答案,或者它是否是人類交互,可以糾正輸出,然後這些答案會返回到貝葉斯訓練數據中?或者兩者的結合?看看Bootstrap聚合它涉及讓每個模型在合奏投票中具有相同的權重,所以在這個特定的實例中我不太確定我會使用bagging作爲我的聚合方法嗎?然而,提升包括通過訓練每個新模型實例來逐步構建一個集合,以強調先前模型被錯誤分類的訓練實例,但不確定這是否是一種更好的替代裝袋方法,因爲我不確定它如何逐步建立在新實例上?而最後一個是貝葉斯模型平均這是一個整體的技術,旨在通過從假設空間採樣的假設,並使用貝葉斯法結合他們逼近貝葉斯最優分類,但是完全不能確定你會怎麼樣從搜索空間的假設?

我知道通常你會使用競爭的方法來反彈兩個分類算法之一,一個說是的,一個說可能一個權重可以應用,如果它的正確你得到兩個分類器的最好但爲了保持清酒,我不想要一種競爭方法。

另一個問題是,以這樣的方式將這兩種方法一起使用,將是有益的,我知道我所提供的例子是非常原始的,不能在這個例子適用,但它可以在更復雜的數據是有益的。

+0

我想你會得到在DSP板更好的答案 – Ali 2012-03-02 16:51:36

+0

嗨對不起什麼是DSP板,信號處理? – 2012-03-03 13:23:39

+0

是的http://dsp.stackexchange.com/ – Ali 2012-03-03 15:20:46

回答

3

我對方法的一些問題,你是以下幾點:

  1. K-部件將在每個集羣是最接近該點。然後你使用輸出數據訓練分類器。我認爲分類器可能會勝過聚類隱式分類,但只能考慮每個聚類中樣本的數量。例如,如果集羣后的訓練數據有typeA(60%),typeB(20%),typeC(20%);您的分類器將更喜歡將不明確的樣本輸入到A中,以獲得更少的分類錯誤。
  2. K-均值取決於/「功能」你的對象採取什麼樣的「座標」。如果您使用不同類型對象混合的特徵,K-means性能會下降。從特徵向量中刪除這些特徵可能會改善您的結果。
  3. 你的「功能」 /表示要分類的對象「座標」可以在不同的單位進行測量。這個事實會影響你的聚類算法,因爲你通過聚類錯誤函數隱式地設置它們之間的單位轉換。使用錯誤函數,通過多個聚類試驗(在不同的聚類初始化時獲得)選擇最後一組聚類。因此,隱式比較特徵向量的不同座標(可能引入隱式轉換因子)。

考慮到這三點,您可能會通過添加預處理階段來提高算法的整體性能。例如,在計算機視覺應用的物體識別中,從圖像中獲取的大部分信息僅來自圖像邊界。所有的顏色信息和部分紋理信息都未被使用。從處理圖像的圖像中減去邊界以獲得面向方向梯度(HOG)描述符的直方圖。這個描述符給出了「特徵」/「座標」,它們將物體分離得更好,從而增加了分類(物體識別)的性能。理論描述符拋出圖像中包含的信息。然而,它們具有兩個主要優點(a)分類器將處理較低維度的數據和(b)從測試數據計算的描述符可以更容易地與訓練數據相匹配。

在你的情況,我建議你儘量提高你的準確度採取類似的辦法:

  1. 提供更豐富的功能,以您的聚類算法
  2. 充分利用已有知識的領域來決定哪些功能你應該添加並從特徵向量刪除
  3. 始終考慮獲得標籤數據的可能性,從而使監督學習算法可以應用

我希望這有助於...