2017-08-15 25 views
2

組合我有醫療文本數據的數據集,我申請對他們的TF-IDF矢量化和計算TF IDF得分的話,就像這樣:矢量器的話在Python

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer as tf 

vect = tf(min_df=60,stop_words='english') 

dtm = vect.fit_transform(df) 
l=vect.get_feature_names() 

x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names()) 

所以基本上我的問題在我應用TfidfVectorizer的同時,它將文本分割爲不同的單詞,例如:「痛苦」,「頭痛」,「噁心」等等。我怎樣才能得到TfidfVectorizer輸出中的文字組合,例如:「嚴重疼痛」,「叢集性頭痛」,「噁心嘔吐」。由於

回答

4

使用ngram_range參數:

vect = tf(min_df=60, stop_words='english', ngram_range=(1,2)) 

或(取決於你的目標):

vect = tf(min_df=60, stop_words='english', ngram_range=(2,2))