我有一個大小爲200的小數據集。數據集非常簡單:每行包含映射到單個標籤的範圍[0,1]中的實數值。共有24個標籤,我的任務的本質是培訓一個分類器,以基本上找到一個映射到標籤的範圍。ML用於數值轉換
有兩種方法我能想到。第一個是SVC,因爲它能將輸入平面分成24個區域,這正是我需要的。然而,當我嘗試對它進行編碼時,結果出現了一些可怕的結果:分類器沒有學到任何東西,並且不管輸入值如何都會拋出相同的標籤。
我正在考慮的第二種方法是神經網絡,但由於缺乏特徵和訓練數據,我非常懷疑這種方法的可行性。
如果需要,我可以分享我使用scikit-learn開發的SVC代碼。
下面就一起來看看我的數據,我已經傾倒到終端:
Label: Min, Mean, Max
{0: [0.96, 0.98, 1.0],
1: [0.15, 0.36, 0.92],
2: [0.14, 0.56, 0.98],
3: [0.37, 0.7, 1.0],
4: [0.23, 0.23, 0.23],
6: [0.41, 0.63, 0.97],
7: [0.13, 0.38, 0.61],
8: [0.11, 0.68, 1.0],
9: [0.09, 0.51, 1.0],
10: [0.19, 0.61, 0.97],
11: [0.26, 0.41, 0.57],
12: [0.29, 0.72, 0.95],
13: [0.63, 0.9, 0.99],
14: [0.06, 0.55, 1.0],
15: [0.1, 0.64, 1.0],
16: [0.26, 0.58, 0.95],
17: [0.29, 0.88, 1.0],
21: [0.58, 0.79, 1.0],
22: [0.24, 0.59, 0.94],
23: [0.12, 0.62, 0.95]}
正如你所看到的,數據是所有的地方,但我想看看是否有可能找到每個標籤最能代表的範圍。
如果有人能告訴我我是否在正確的軌道上,我將不勝感激。謝謝!
那麼......你對這些數據的假設是什麼?一些模型的想法? – sascha
那麼,我所做的最大的假設是標籤所代表的範圍不會相互重疊。所以,實際上,我的標籤將[0,1]劃分爲24個獨特的不同空間。 至於模型的想法,我列出了其中2我已經試過一個似乎並不工作。 :] –
爲什麼不顯示你的數據? – sascha