1
我有一個很大的數據集與分類值,並試圖使用DictVectorizer
編碼它們。以下是我嘗試的代碼片段。DictVectorizer與大型數據集
dv = DictVectorizer(sparse=True)
_dicts = []
for line in fp:
_dict = create_dict_feature(line)
_dicts.append(_dict)
dv.fit_transform(_dicts)
但是,MemoryError
發生在_dicts.append(_dict)
。我想知道什麼是解決此問題的有效方法。