0
是否有任何方法可以將多個單詞作爲Python單獨處理?我編寫了一個腳本來查找文檔集合中單詞的Tf-Idf值。問題在於,它給出了Tf-Idf的單詞。但有些情況下,我必須將多個單詞視爲一個單詞,例如大數據,機器學習應被視爲單個單詞,並且應計算這些單詞的Tf-Idf分數。任何幫助將非常有用。Python將多個單詞當作單獨處理
是否有任何方法可以將多個單詞作爲Python單獨處理?我編寫了一個腳本來查找文檔集合中單詞的Tf-Idf值。問題在於,它給出了Tf-Idf的單詞。但有些情況下,我必須將多個單詞視爲一個單詞,例如大數據,機器學習應被視爲單個單詞,並且應計算這些單詞的Tf-Idf分數。任何幫助將非常有用。Python將多個單詞當作單獨處理
我會使用scikit-learn和TfidfVectorizer來處理它。調整它的一些參數基本上可以讓你做所有的工作。
儘管沒有一個很好的例子,但很難展示它的功能。
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)
要知道,ngram_range
參數允許您選擇,如果你有興趣例如通過選擇一個範圍,可以選擇bigrams,trigrams等。
顯示一些代碼。輸入?輸出?預期產出? – fledgling
顯示代碼。投入和預期產出將有助於解決問題 –