2017-04-12 32 views
-1

我創建我的第一個預測模型及其結果是絕對可怕的。我需要一些幫助確定我如何解決這個問題。初學者指南,以排除性能不佳的模型

我做線性迴歸&邏輯迴歸分類,預測學生是否會通過一門課程,1是的,0是沒有。

該數據集很小,因爲我們只有一個類的完整數據,60個行的16個特徵,35個傳遞和25個失敗。 我想知道我的數據集是否太小。

我不想分享數據集,但會清理它,所以它是完全匿名的。

ROC非常非常不規則,主要是(對數迴歸),並預測比其他任何事情都更多的誤報。

我喜歡一些初學者的一般故障排除建議,我可以在我們聘請專業人士之前嘗試。

感謝您提供任何幫助。

enter image description here

回答

0

標識提出了一些建議:

  • 在Azure的ML那裏有一個所謂的「過濾器基於特徵選擇」模塊,你可以用它來贏得的功能,並檢查是否真有預測能力在他們甚至選擇只有最高分的那些。
  • 如果您還沒有,在訓練/交叉驗證集中進行分解並評估您的模型,並將其用作診斷以識別欠適合(高偏倚)或過度擬合(高方差),並根據診斷執行如下操作:
  • 對於過擬合:獲取更多數據,使用較少的特徵,使用較不復雜的模型,添加或增加正則化
  • 對於欠擬合:添加更多特徵,使用更復雜的模型,減少正則化。

而且不要忘了,開始訓練之前,探索和評估數據,使用散點圖,看是否確實其可分離,執行功能的工程和預處理該問問自己:給出這個功能,將人類專家能夠執行預測?,如果你的答案不是,轉換或下降功能,使答案是積極的

+0

謝謝路易斯。 Il花了幾天時間研究功能,看看我能否用數據做出任何事情。數據之間沒有足夠的關係來做出準確的預測而不是折磨數據來做一些它無法做到的事情,這是很常見的,所以最好稱它爲特定的一組特性和數據? –

+0

是的,數據集可能不是高度相關的,也可能是其數據集太小,無法探索,特徵工程和預處理其重要的,基於過濾器的天藍色特徵選擇,它可以幫助你預訓練任務,也許數據集本身並不強大,但經過一些清理後,添加一些計算的特徵,刪除其他人,這將是一個不同的故事 –