在一個數據集上使用兩種不同的算法進行交叉驗證

我有一組帶有三個標籤'd'，'e'和'k'的分類數據。我想訓練一個分類器來識別'd'並將它們從數據集中移除，然後標識'e'。目前，我將數據分成三部分，我將其稱爲X1，X2，X3。我在X1上訓練一個學習者L1，使用那個學習者去除X2上的'd'標籤，然後我用它來訓練第二個學習者L2，我在X3上測試它。這是一種合理的方法，在這種情況下是否有公認的標準？在一個數據集上使用兩種不同的算法進行交叉驗證

來源

2016-12-26 johnklawlor

爲什麼在找到'e'之前必須刪除'd'？這是爲了以某種方式提高性能嗎？（如果是這樣，這不一定是我會採取的方法） – etov

我實際上不知道/不記得是否存在通過這種方式解決問題的性能改進。讓我檢查一下，我會發布「結果」。 – johnklawlor

再想一想，我不明白這裏的目標。你的目標是衡量分類器的性能嗎？或者實際刪除'd'並在某些未註釋的數據上標識'e'？ – etov

通常有兩種常用的評估分類器性能的技術：使用整個數據集（使用數據的多個「摺疊」）的交叉驗證和排除某些數據的保留集從培訓進行評估。通常，保留集比用於訓練的數據（例如80/20或70/30）小得多。

在這種情況下，一個選項是保持一個保持集;對學習集進行任何學習和改變，即訓練分類器，去除'd'元素，訓練另一個分類器，識別'e'元素;然後測試整個過程對抗你的堅持。

來源

2016-12-27 15:39:49 etov

在一個數據集上使用兩種不同的算法進行交叉驗證

回答

相關問題