1
我有一個324行和35列的數據集。我把它分成訓練和測試數據:爲什麼DictVectorizer會更改特徵的數量?
X_train, X_test, y_train, y_test = train_test_split(tempCSV[feaure_names[0:34]], tempCSV[feaure_names[34]], test_size=0.2, random_state=32)
這似乎很好地工作,我的X_train和X_test都有34種功能。我使用DictVectorizer進一步轉換,因爲我有分類變量。
from sklearn.feature_extraction import DictVectorizer
vecS=DictVectorizer(sparse=False)
X_train=vecS.fit_transform(X_train.to_dict(orient='record'))
X_test=vecS.fit_transform(X_test.to_dict(orient='record'))
現在,當我比較X_train到X_test,前者有46個功能,而後者只有44是什麼,這可能會發生一些可能的原因是什麼?
謝謝!這使它工作。說得通。 –