我目前正在與既有分類和連續特徵的數據幀的工作多分類,看起來像這樣:Logistic迴歸 - 與分類變量
我想運行一個邏輯迴歸預測目標值。在這種情況下的目標值是種族,可以是「A」,「W」,「B」,「H」,「N」或「O」,代表「亞洲」,「白色」,「黑色「,」西班牙裔「,」美洲原住民「或」其他「。
我已經將所有功能轉換爲虛擬變量(除了來自「比賽」欄),在一個名爲「傻瓜」的新數據框中。訓練模式,我用這個代碼:
from sklearn import linear_model, metrics
X = dummies.drop("race", axis=1)
y = dummies["race"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)
from sklearn.linear_model import LogisticRegression
logmodel = LogisticRegression()
logmodel.fit(X_train, y_train)
predictions = logmodel.predict(X_test)
我沒有得到任何錯誤,但是,當我在看分類矩陣我得到的1.00都準確率,召回和f1-分滿分。這似乎有點太好,不能成爲真的...我做錯了什麼?
這是我用假人轉換代碼:
dummies = pd.get_dummies(df[["date", "armed", "age", "gender", "city", "state", "signs_of_mental_illness", "threat_level", "flee", "body_camera", "total_population"]], drop_first=True)
dummies = pd.concat([df, dummies], axis=1)
dummies.drop(df[["date", "armed", "age", "gender", "city", "state", "signs_of_mental_illness", "threat_level", "flee", "body_camera", "total_population"]], axis=1, inplace=True)
你可以分享你的數據,你使用的代碼將其轉換爲虛擬變量? –
@VivekKumar,把它放在問題的最後。 –
和數據?請做一個完整的[mvce示例](https://stackoverflow.com/help/mcve) –