Q

DictVectorizer與大型數據集

2016-10-01 112 views 1 likes

1

我有一個很大的數據集與分類值，並試圖使用DictVectorizer編碼它們。以下是我嘗試的代碼片段。DictVectorizer與大型數據集

dv = DictVectorizer(sparse=True) 
_dicts = [] 
for line in fp: 
    _dict = create_dict_feature(line) 
    _dicts.append(_dict) 
dv.fit_transform(_dicts)

但是，MemoryError發生在_dicts.append(_dict)。我想知道什麼是解決此問題的有效方法。

2016-10-01 DSKim

A

回答

1

根據文檔，fit_transform可以採取迭代。如果內存問題來自列表大小，請考慮使用生成器而不是list，因爲迭代它會一次產生一個dict。

_dicts = (create_dict_feature(line) for line in fp) 
dv = DictVectorizer(sparse=True) 
dv.fit_transform(_dicts)

這將幫助不大，如果fit_transform累計dict S或Mapping的只有我，你做之前。

2016-10-01 07:30:31

相關問題

11. 大型數據集，插值
12. 使用大型數據庫/數據集
13. 大數據集：mysql_unbuffered_query與innodb？
14. CSVGREP子集大型數據集
15. 閱讀大型數據集大熊貓
16. 與大型數據集的視圖與索引表的性能
17. 導出大型數據庫與數據
18. 在AngularJS中處理大型數據集
19. 將XGBOOST應用於大型數據集
20. jqgrid具有大型本地數據集
21. 大型機數據集比較
22. Scipy.Spatial.KDTree.query - 大型數據集問題
23. jcl排序除大型機數據集
24. Triplestore對於大型數據集
25. Qt：QTable替代大型數據集
26. 在大型數據集中搜索
27. TPCH產生大型數據集
28. SELECT IN失敗 - 大型數據集
29. Qt中的大型實時數據集
30. Django prefetch_related一個大型的數據集