2014-10-07 59 views
0

我有大約50行數據有標籤。數據中還有一個真相來源。真相來源描述了最終用戶體驗。對一小組標記數據的隨機森林分類器

我也有50,000行數據,但它沒有數據中的真實來源。

我打算執行以下操作: - 使用50行數據構造隨機森林分類器。

不確定數據集是否非常小以開始。

我已閱讀關於半監督學習的內容,這裏是我理解的內容,並將用於我的情況。

使用我從這50行獲得的分類器將它應用於50,000行數據。 然後從錯誤率最低或最準確的未標記數據中選擇最上面的k行。

將此K行添加到標記的數據,然後再次在這組數據上運行分類器並重覆上述過程。

有沒有人試過這種技術?

基本上我試圖解決使用小數據集的分類問題,然後應用於更大的數據集。

回答

1

如果我們的目標是爲5萬個未標記的觀察值計算缺失的「真值源」值,我認爲您不會通過您描述的增量訓練過程獲得任何收益。我認爲最好的選擇是用50個帶標記的觀測值來訓練一個隨機森林,並用它來計算所有未標記數據的真值來源。爲了估計其性能,我建議你重複進行交叉驗證。

我不認爲增量程序增加任何值的原因是你沒有辦法告訴哪些未標記的觀測值具有最低的預測誤差。如果您使用某種形式的葉節點純度來確定每個預測的效果如何,那麼您可能會冒險重新訓練過度配置結果中的分類器,使其變得越來越糟糕。