我有一個具有唯一標識符和其他功能的數據集。它看起來像這樣將預測映射回ID - Python Scikit學習DecisionTreeClassifier
ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我把它分解成訓練和測試數據。我試圖從訓練數據訓練的分類器中將測試數據分爲兩類。我想在訓練和測試數據集中使用標識符,所以我可以將預測映射回ID。
有沒有一種方法可以將標識符列分配爲ID或非預測變量,就像我們可以在Azure ML Studio或SAS中一樣?
我使用的是Scikit-Learn的DecisionTreeClassifier
。這是我對分類器的代碼。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
如果我只包括ID爲traindata
,代碼拋出一個錯誤:
ValueError: invalid literal for float(): 123-456
你是如何讓你的火車/測試分裂? – Grr
@Grr ..現在,我把它分成兩半,分別加載CSV作爲traindata和testdata。 – Minu