2
組合我有醫療文本數據的數據集,我申請對他們的TF-IDF矢量化和計算TF IDF得分的話,就像這樣:矢量器的話在Python
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer as tf
vect = tf(min_df=60,stop_words='english')
dtm = vect.fit_transform(df)
l=vect.get_feature_names()
x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names())
所以基本上我的問題在我應用TfidfVectorizer的同時,它將文本分割爲不同的單詞,例如:「痛苦」,「頭痛」,「噁心」等等。我怎樣才能得到TfidfVectorizer輸出中的文字組合,例如:「嚴重疼痛」,「叢集性頭痛」,「噁心嘔吐」。由於