2016-06-07 128 views
0

我有利用上一堆郵件的袋的字模型如下:如何在給定單詞的單詞袋詞彙中獲得單詞的id?

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message']) 
    B4 = bow_transformer.transform([msg4]) 
    print B4 
    print bow_transformer.get_feature_names()[6736] 
    print bow_transformer.get_feature_names()[8013] 

(0,1158)1
(0,1899)1
(0,2897)1
(0,2927)1
(0, 4021)1
(0,6736)2
(0,7111)1
(0,7698)1
(0,8013)2

ü

我需要的是像給出的單詞 「說」提取其ID的「6736」(東西反之亦然什麼bow_transformer.get_feature_names()[6736]正在穿)?!

+1

你能不能只使用'transform'方法?即''bow_transformer.transform(['say'])' – ncfirth

+0

它給了我這樣的東西:**(0,6736)\t 1 **但我只需要6736 – Far

回答

3

您應該使用vocabulary_屬性:

>>> bow_transformer.vocabulary_.get('say') 
6736