如何在給定單詞的單詞袋詞彙中獲得單詞的id？

我有利用上一堆郵件的袋的字模型如下：如何在給定單詞的單詞袋詞彙中獲得單詞的id？

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message']) 
    B4 = bow_transformer.transform([msg4]) 
    print B4 
    print bow_transformer.get_feature_names()[6736] 
    print bow_transformer.get_feature_names()[8013]

（0，1158）1
（0，1899）1
（0，2897）1
（0，2927）1
（0， 4021）1
（0，6736）2
（0，7111）1
（0，7698）1
（0，8013）2

說

ü

我需要的是像給出的單詞「說」提取其ID的「6736」（東西反之亦然什麼bow_transformer.get_feature_names()[6736]正在穿）？！

來源

2016-06-07 Far

你能不能只使用'transform'方法？即''bow_transformer.transform（['say']）' – ncfirth

它給了我這樣的東西：**（0，6736）\t 1 **但我只需要6736 – Far

您應該使用vocabulary_屬性：

>>> bow_transformer.vocabulary_.get('say') 
6736

來源

2016-06-07 12:21:05 elyase

如何在給定單詞的單詞袋詞彙中獲得單詞的id？

回答

相關問題