0
我有一組帶有三個標籤'd','e'和'k'的分類數據。我想訓練一個分類器來識別'd'並將它們從數據集中移除,然後標識'e'。目前,我將數據分成三部分,我將其稱爲X1,X2,X3。我在X1上訓練一個學習者L1,使用那個學習者去除X2上的'd'標籤,然後我用它來訓練第二個學習者L2,我在X3上測試它。這是一種合理的方法,在這種情況下是否有公認的標準?在一個數據集上使用兩種不同的算法進行交叉驗證
我有一組帶有三個標籤'd','e'和'k'的分類數據。我想訓練一個分類器來識別'd'並將它們從數據集中移除,然後標識'e'。目前,我將數據分成三部分,我將其稱爲X1,X2,X3。我在X1上訓練一個學習者L1,使用那個學習者去除X2上的'd'標籤,然後我用它來訓練第二個學習者L2,我在X3上測試它。這是一種合理的方法,在這種情況下是否有公認的標準?在一個數據集上使用兩種不同的算法進行交叉驗證
通常有兩種常用的評估分類器性能的技術:使用整個數據集(使用數據的多個「摺疊」)的交叉驗證和排除某些數據的保留集從培訓進行評估。通常,保留集比用於訓練的數據(例如80/20或70/30)小得多。
在這種情況下,一個選項是保持一個保持集;對學習集進行任何學習和改變,即訓練分類器,去除'd'元素,訓練另一個分類器,識別'e'元素;然後測試整個過程對抗你的堅持。
爲什麼在找到'e'之前必須刪除'd'?這是爲了以某種方式提高性能嗎? (如果是這樣,這不一定是我會採取的方法) – etov
我實際上不知道/不記得是否存在通過這種方式解決問題的性能改進。讓我檢查一下,我會發布「結果」。 – johnklawlor
再想一想,我不明白這裏的目標。你的目標是衡量分類器的性能嗎?或者實際刪除'd'並在某些未註釋的數據上標識'e'? – etov