我最近在分配任務的地方是使用20_newgroups數據集,並使用3種不同的矢量化技術(文字包,TF,TFIDF)來表示文件的工作矢量格式,然後嘗試分析20_Newsgroups數據集中每個類之間的平均餘弦相似度之間的差異。所以這就是我在Python中想要做的。我正在讀取數據並將其傳遞給sklearn.feature_extraction.text.CountVectorizer Bag's Wo
我想在包含許多行的文件上使用TfidfVectorizer(),每個文本都包含一個短語。然後我想用一小部分短語做一個測試文件,做TfidfVectorizer(),然後取原始文件和測試文件之間的餘弦相似度,這樣對於測試文件中的給定短語,我可以檢索出前N個匹配原始文件。這裏是我的嘗試: corpus = tuple(open("original.txt").read().split('\n'))
的文檔相似性,我使用TF-IDF與餘弦相似度計算描述 輸入字符串: 3/4x1/2x3/4 blk mi tee
下面是句子其中我需要找到類似的輸入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black
smith-cooper®
from gensim import corpora, models, similarities
documents = ["This is a book about cars, dinosaurs, and fences"]
# remove common words and tokenize
stoplist = set('for a of the and to in - , is'
我試圖計算所有值之間的餘弦相似度。 1000 * 20000的計算時間花了我10多分鐘。 代碼: from gensim import matutils
# array_A contains 1,000 TF-IDF values
# array_B contains 20,000 TF-IDF values
for x in array_A:
for y in array_B: