我想向量化一些分類數據以構建列車和測試矩陣。如何矢量化分類數據
我有85個城市,我想獲得一個矩陣282520行,每一行是像
[1 0 0 ..., 0 0 0]
矢量我想有每行的矢量爲1或0取決於城市,所以每因此城市應該是一個列:
print(df['city'])
0 METROPOLITANA DE SANTIAGO
1 METROPOLITANA DE SANTIAGO
2 METROPOLITANA DE SANTIAGO
3 METROPOLITANA DE SANTIAGO
4 COQUIMBO
5 SANTIAGO
6 SANTIAGO
7 METROPOLITANA DE SANTIAGO
8 METROPOLITANA DE SANTIAGO
9 METROPOLITANA DE SANTIAGO
10 BIO BIO
11 COQUIMBO
... ...
282520 METROPOLITANA DE SANTIAGO
Name: city, dtype: object
這是我的嘗試:
from sklearn import preprocessing
list_city = getList(df,'city')
le = preprocessing.LabelEncoder()
le.fit(list_city)
print(le.transform(['AISEN']))
print(le.transform(['TARAPACA']))
print(le.transform(['AISEN DEL GENERAL CARLOS IBANEZ DEL CAMP']))
我得到以下輸出:
[0]
[63]
[1]
的問題是,我剛開了城市的指數,我找了建議,就如何向量化的數據。
你確定你不是在尋找[OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing .OneHotEncoder)?這聽起來更像你要找的東西。 – patrick