訓練集由一組樣本和一組標籤組成,每個樣本一組。在我的例子中,樣本是一個向量,而標籤是標量。爲了處理這個問題,我使用了Numpy。考慮這個例子:表示訓練集與
samples = np.array([[1,0],[0.2,0.5], [0.3,0.8]])
labels = np.array([1,0,0])
現在我必須在兩個分區中拆分訓練集來洗牌元素。這個事實提出了一個問題:我放棄了與標籤的通信。我該如何解決這個問題?
由於性能在我的項目中至關重要,所以我不想構造置換矢量,我正在尋找一種將標籤與樣本綁定的方法。現在我的解決方案是爲標籤使用樣品陣列狀的最後一欄:
samples_and_labels = np.array([[1,0,0],[0.2,0.5,0], [0.3,0.8,1]])
這是對我的情況下,最快的解決方案?還是有更好的?例如創建配對?
你確定分裂你的數據是瓶頸嗎?不,也許,訓練模型? – ziggystar 2013-03-15 21:07:51