我有大約50行數據有標籤。數據中還有一個真相來源。真相來源描述了最終用戶體驗。對一小組標記數據的隨機森林分類器
我也有50,000行數據,但它沒有數據中的真實來源。
我打算執行以下操作: - 使用50行數據構造隨機森林分類器。
不確定數據集是否非常小以開始。
我已閱讀關於半監督學習的內容,這裏是我理解的內容,並將用於我的情況。
使用我從這50行獲得的分類器將它應用於50,000行數據。 然後從錯誤率最低或最準確的未標記數據中選擇最上面的k行。
將此K行添加到標記的數據,然後再次在這組數據上運行分類器並重覆上述過程。
有沒有人試過這種技術?
基本上我試圖解決使用小數據集的分類問題,然後應用於更大的數據集。