矢量器的話在Python

組合我有醫療文本數據的數據集，我申請對他們的TF-IDF矢量化和計算TF IDF得分的話，就像這樣：矢量器的話在Python

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer as tf 

vect = tf(min_df=60,stop_words='english') 

dtm = vect.fit_transform(df) 
l=vect.get_feature_names() 

x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names())

所以基本上我的問題在我應用TfidfVectorizer的同時，它將文本分割爲不同的單詞，例如：「痛苦」，「頭痛」，「噁心」等等。我怎樣才能得到TfidfVectorizer輸出中的文字組合，例如：「嚴重疼痛」，「叢集性頭痛」，「噁心嘔吐」。由於

來源

2017-08-15 HalfPintBoy

使用ngram_range參數：

vect = tf(min_df=60, stop_words='english', ngram_range=(1,2))

或（取決於你的目標）：

vect = tf(min_df=60, stop_words='english', ngram_range=(2,2))

來源

2017-08-15 10:02:39 MaxU

矢量器的話在Python

回答

相關問題