2012-10-04 21 views
14

我使用sklearn.pipeline.Pipeline來鏈特徵提取器和分類器。有沒有辦法將多個特徵選擇類(例如sklearn.feature_selection.text)並行加入其輸出?在scikit-learn中結合特徵提取類

我的代碼現在看起來如下:

pipeline = Pipeline([ 
    ('vect', CountVectorizer()), 
    ('tfidf', TfidfTransformer()), 
    ('clf', SGDClassifier())]) 

這將導致以下:

vect -> tfidf -> clf 

我希望能夠指定一個管道,看起來如下:

vect1 -> tfidf1 \ 
       -> clf 
vect2 -> tfidf2/

回答

16

最近在scikit-learn的master分支中最近實施了這個名爲FeatureUnion

http://scikit-learn.org/dev/modules/pipeline.html#feature-union

+2

是啊,我看到了它在http://blog.kaggle.com/2012/09/26/impermium-andreas-blog/後,我問的問題 –

+0

酷,第一用戶: )讓我知道如果你覺得它有用! –

+1

'sklearn.pipeline.FeatureUnion'版本爲0.13.1 – smci