2017-02-23 69 views
0

我使用sklearn分類器,各種分類器,但主要集中在決策樹周圍。我認爲我有一個偏見問題。下面是我用,Sklearn - 數據偏向錯誤

設置的25K

培訓記錄的工作(總數據大概是500K提供)的實際數據的 95%是假的,因爲客戶通常紀念這一數據爲假

25K培訓記錄包括95%的錯誤和5%的錯誤

在訓練和測試時,根據我使用的功能,我得到的準確率在85%到94%之間。有時甚至只有兩個特徵提供90%的準確性,而20個特徵(我知道這很重要)增加到94%。我相信這是不正確的,我的感覺是,由於我提供的數據,存在一些偏差。我應該在我的訓練集中添加更多記錄到「真實」,可能是使用30k記錄,從我們的實際數據中增加另一組5k的「真實」值?

+0

這可能發生,即使估計標籤上的所有數據,假的,你可以獲得95%的準確性。 –

回答

1

有可能您的所有測試數據都是錯誤的,在這種情況下,通過始終選擇錯誤,您可以獲得95%的有效性。

您有一個類不平衡問題。這在很多真實世界的場景中都很典型。例如,HIV陰性,癌細胞或欺詐交易很少發生HIV陽性病例。你需要看看什麼是假陰性VS真陽性的成本能夠調整你的算法在有效性爲準精度等

一對夫婦的事情,我會做:

  1. 做一個混淆矩陣(http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html),這將有助於您還檢查有多少個假陽性和真陽性
  2. 使用交叉驗證,以獲得火車/測試人羣的好混
+0

這很好,謝謝! – HMan06

+0

再次感謝,這確實有幫助。現在我正在看這個(我的大腦似乎在工作),準確度接近25%。這實際上與我的預期並不遙遠。我會繼續努力。 – HMan06