2014-03-28 103 views
0

我有一個很大的數據集(> 300,000個觀測值),它們代表蛋白質之間的距離(RMSD)。我正在構建一個迴歸模型(隨機森林),它可以預測任何兩種蛋白質之間的距離。不平衡訓練數據集和迴歸模型

我的問題是我對近距離匹配(短距離)更感興趣,但是我的數據分佈非常偏向於大多數距離很大。我真的不在乎模型能夠預測大距離有多好,所以我想確保模型能夠準確地預測近距離模型的距離。然而,當我在整個數據上訓練模型時,模型的表現並不好,所以我想知道我能做的最好的抽樣方式是什麼,這樣我可以保證模型能夠準確預測近距離匹配距離儘可能並且同時現在對數據進行如此多的分層,因爲不幸的是,這種有偏差的數據分佈代表了我要驗證和測試模型的真實世界數據分佈。

以下是我的數據分佈,其中第一列代表的距離,第二列代表在此距離範圍內的觀測次數:

Distance Observations 
0   330 
1   1903 
2   12210 
3   35486 
4   54640 
5   62193 
6   60728 
7   47874 
8   33666 
9   21640 
10   12535 
11   6592 
12   3159 
13   1157 
14   349 
15   86 
16   12 
+0

這聽起來更像是一個統計問題,而不是編程問題。我會建議在[交叉驗證](http://stats.stackexchange.com/)詢問。 –

回答

1

我會嘗試在這裏的第一件事就是建立迴歸模型的距離,因爲這將集中更大距離的範圍。如果你使用廣義線性模型,這是日誌鏈接功能;

Y = EXP(F(X))

記得用的日誌:其他方法,你可以隻手動估計你的輸入,x的迴歸函數,冪的結果做到這一點兩人一起訓練的距離。

相關問題