1
我想知道是否可以合併多個DictVectorizer。這裏有一個例子:並行化DictVectorizer創建
- 我有4個文本文檔。
- 每個文檔被髮送到一個單獨的線程,生成一個功能字典。
- 線程返回時,字典一起放入列表中。
- 字典列表被髮送到DictVectorizer。
最後一步主導運行時間。我不希望線程返回字典,而是希望它們返回它們自己的DictVectorizer,並在最後合併DictVectorizer。我意識到這將需要改變生成的DictVectorizer中的索引(因爲某些功能可能不存在/存在於不同的文檔中)。
TL; DR - 有沒有什麼方法可以從字典列表中並行創建DictVectorizer?
非常感謝!這非常有效。請注意,我不需要「toarray()」調用。我能夠將scipy.sparse.vstack直接傳遞給我的LinearSVC來執行擬合。 – Naijaba 2014-12-31 02:47:15
@Naijaba,很高興聽到!你說得對,'toarray()'只是爲了說明。請記住,有些算法不接受稀疏矩陣。 – elyase 2014-12-31 12:10:17