我有一個由10^6
條目組成的數據集。但問題是數據是Imbalance
。不平衡分類數據
我使用Adboost創建了一個線性分類器。但由於數據不平衡,我的準確性很差。如何處理不平衡數據。我正在使用Graphlab
。
下面是數據的平衡簡單的代碼:
safe_loans_raw = loans[loans[target] == 1]
risky_loans_raw = loans[loans[target] == -1]
# Undersample the safe loans.
percentage = len(risky_loans_raw)/float(len(safe_loans_raw))
safe_loans = safe_loans_raw.sample(percentage, seed = 1)
risky_loans = risky_loans_raw
loans_data = risky_loans.append(safe_loans)
但是精度仍然沒有批准任何人都可以爲此提供有效的方法?