-1
我試圖實現在信息檢索論文中描述的一種技術,其中將文檔分解爲向量,然後計算它們的餘弦相似度,就像這裏解釋的那樣:http://blog.christianperone.com/2013/09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/合併兩個CountVectorizer並計算餘弦相似度
在這個例子中,我們有:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
documents = (
"The sky is blue",
"The sun is bright",
"The sun in the sky is bright",
"We can see the shining sun, the bright sun"
)
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
然而,時不時我會得到一個新的文檔。有沒有辦法計算這個新文檔的餘弦相似度,而不重新生成documents
元組和tfidf_matrix
?