由於是一個簡單的CSV文件:RandomForestClassfier.fit():ValueError異常:無法將字符串轉換爲浮動
A,B,C
Hello,Hi,0
Hola,Bueno,1
顯然,真正的數據集比這要複雜得多,但是這一次重現錯誤。我試圖建立一個隨機森林分類吧,像這樣:
cols = ['A','B','C']
col_types = {'A': str, 'B': str, 'C': int}
test = pd.read_csv('test.csv', dtype=col_types)
train_y = test['C'] == 1
train_x = test[cols]
clf_rf = RandomForestClassifier(n_estimators=50)
clf_rf.fit(train_x, train_y)
但是調用,當我剛剛得到這個回溯擬合():
ValueError: could not convert string to float: 'Bueno'
scikit學習的版本是0.16.1 。
謝謝。我最終找到了一個使用DictVectorizer的解決方案。我很驚訝沒有更好的文件來處理這樣的問題。如果我在這裏有足夠的業力,我會高興。 – nilkn