2011-02-15 84 views
0

假設我有一個數據集,可以使用weka的J48或randomForest在R中進行整齊分類。現在讓我們假設我有一個其他訓練文件,其中包含每個數據點的兩個分類。多標籤分類做對了嗎?

我怎麼能結合這兩個能夠將新的數據點分類到這兩個類?

(所以我需要一個「兩通」培訓。)

我應該使用MLP(如限制Bolzmann機)呢?

+1

你可以問http://www.crossvalidated.com – 2011-02-15 11:36:09

回答

1

我假設你的兩組數據是這樣的......

數據集1:

(x_11, x_12, ... , x_1N) = 1 
(x_21, x_22, ... , x_2N) = 0 
.... 

數據集2:

(x_11, x_12, ... , x_1N) = (1, 1) 
(x_21, x_22, ... , x_2N) = (0, 1) 
.... 

假設是你的問題的樣子,我會把它分成兩個問題:預測兩個不同的標籤。我認爲這可以通過概率公式是合理的:

p(L1,L2|X) = p(L2|L1,X)p(L1|X) 

其中L1和L2是兩個類別標籤和X是數據。

我的建議是使用數據集1和2以及L1作爲目標變量來訓練p(L1 | X)的模型,然後使用數據集2和L1訓練p(L2 | L1,X)的模型, L2作爲你的目標變量。要預測一對新的標籤,可以使用第一個模型來獲得L1的估計值,然後使用L1的估計值來估計L2。我認爲反對這種方法的一個論點是,雖然公式是正確的,但是可能p(L1,L2 | X)比p(L2 | L1,X)和p L1 | X)。但是,在沒有更多細節的情況下,我真的不知道。