我有8個文檔,並且我運行了TF-IDF
來獲取數組。我不明白我是如何找出哪一個是給定輸入查詢的最佳文檔匹配?從一組文檔中輸入查詢的最佳匹配
all_documents = [doc1, doc2, ...., doc7]
sklearn_tfidf = TfidfVectorizer(norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True, tokenizer=tokenize)
sklearn_representation = sklearn_tfidf.fit_transform(all_documents).toarray()
通過最好的文檔,你是指最接近輸入查詢的文檔嗎?你必須使用'TfidfVectorizer'來輸入查詢,然後從你有的7個文件中找到到矢量的距離(這可以是餘弦距離/歐氏距離)。 – titipata
@titipat感謝您的方法。但據我所知,找到任何提到的距離矢量的長度應該是相同的。我將如何做到這一點? – user3235169