0
我有一個很大的數據集(> 300,000個觀測值),它們代表蛋白質之間的距離(RMSD)。我正在構建一個迴歸模型(隨機森林),它可以預測任何兩種蛋白質之間的距離。不平衡訓練數據集和迴歸模型
我的問題是我對近距離匹配(短距離)更感興趣,但是我的數據分佈非常偏向於大多數距離很大。我真的不在乎模型能夠預測大距離有多好,所以我想確保模型能夠準確地預測近距離模型的距離。然而,當我在整個數據上訓練模型時,模型的表現並不好,所以我想知道我能做的最好的抽樣方式是什麼,這樣我可以保證模型能夠準確預測近距離匹配距離儘可能並且同時現在對數據進行如此多的分層,因爲不幸的是,這種有偏差的數據分佈代表了我要驗證和測試模型的真實世界數據分佈。
以下是我的數據分佈,其中第一列代表的距離,第二列代表在此距離範圍內的觀測次數:
Distance Observations
0 330
1 1903
2 12210
3 35486
4 54640
5 62193
6 60728
7 47874
8 33666
9 21640
10 12535
11 6592
12 3159
13 1157
14 349
15 86
16 12
這聽起來更像是一個統計問題,而不是編程問題。我會建議在[交叉驗證](http://stats.stackexchange.com/)詢問。 –