我使用sklearn分類器,各種分類器,但主要集中在決策樹周圍。我認爲我有一個偏見問題。下面是我用,Sklearn - 數據偏向錯誤
設置的25K培訓記錄的工作(總數據大概是500K提供)的實際數據的 95%是假的,因爲客戶通常紀念這一數據爲假
25K培訓記錄包括95%的錯誤和5%的錯誤
在訓練和測試時,根據我使用的功能,我得到的準確率在85%到94%之間。有時甚至只有兩個特徵提供90%的準確性,而20個特徵(我知道這很重要)增加到94%。我相信這是不正確的,我的感覺是,由於我提供的數據,存在一些偏差。我應該在我的訓練集中添加更多記錄到「真實」,可能是使用30k記錄,從我們的實際數據中增加另一組5k的「真實」值?
這可能發生,即使估計標籤上的所有數據,假的,你可以獲得95%的準確性。 –