tf-idf

    16熱度

    4回答

    首先讓我們提取每學期的TF-IDF得分每份文件: from gensim import corpora, models, similarities documents = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer syste

    1熱度

    1回答

    當我運行tfidf爲一組文件時,它返回了一個tfidf矩陣,看起來像這樣。 (1, 12) 0.656240233446 (1, 11) 0.754552023393 (2, 6) 1.0 (3, 13) 1.0 (4, 2) 1.0 (7, 9) 1.0 (9, 4) 0.742540927053 (9, 5) 0.66980

    3熱度

    1回答

    我有tf-idf矩陣是從我擁有的文本文件生成的。我想更重視一些詞彙術語。 我已經寫下了下面的代碼。我怎樣才能加倍特定詞彙術語的權重。我需要通過2加倍計或者只是多了TFIDF的權重,我想增加從d的一些術語的重要性 from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectoriz

    3熱度

    3回答

    我有一個文檔集合,每個文檔都隨着時間的推移而迅速增長。任務是在任何固定的時間找到類似的文件。我有兩個可能的方法: 載體包埋(word2vec,手套或fasttext),平均超過字矢量的文檔中,並且使用餘弦相似性。 袋字:tf-idf或其變體,如BM25。 其中之一會產生明顯更好的結果嗎?有人對文檔相似性進行了tf-idf與平均word2vec的定量比較嗎? 是否有另一種方法,允許在添加更多文本時動

    0熱度

    1回答

    使用sklean TF-IDF中,defult利用空間分割 corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?' ] vectorizer = CountVectorize

    2熱度

    1回答

    我已閱讀關於這一主題的許多不同的博客,但一直沒能找到一個明確的解決方案。我有以下情況: 我有一對標籤爲1或-1的文本列表。 對於每個文本對,我想要的功能是在以下方式的連接:)F(= TFIDF(T1)「CONCAT」 TFIDF(T2) 如何做同樣的任何建議?我有以下的代碼,但它給出了一個錯誤: count_vect = TfidfVectorizer(analyzer=u'char', ngra

    0熱度

    1回答

    我有8個文檔,並且我運行了TF-IDF來獲取數組。我不明白我是如何找出哪一個是給定輸入查詢的最佳文檔匹配? all_documents = [doc1, doc2, ...., doc7] sklearn_tfidf = TfidfVectorizer(norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True, t

    1熱度

    2回答

    我試圖計算熊貓數據框中兩列之間的tf-idf向量餘弦相似度。一列包含一個搜索查詢,另一列包含一個產品標題。餘弦相似度值旨在成爲搜索引擎/排序機器學習算法的「特徵」。 我在iPython筆記本上做了這個,不幸的是運行到MemoryErrors中,我不知道爲什麼經過幾個小時的挖掘。 我的設置: 聯想E560筆記本 睿i7-6500U @ 2.50 GHz的 16 GB的RAM 的Windows 10

    0熱度

    2回答

    比方說,我們有兩個對象的索引: { "name": "iPhone 6s Plus big screen, super fast, ultra responsive, blah blah" } 和: { "name" : "iPhone 6s Plus" } 現在,當我搜索iPhone 6s Plus,它會返回第一個沒有意義的對象,因爲第一個對象比給定查詢的第二個對象包含更多的單詞

    3熱度

    1回答

    我是新來的星火2. 我試圖星火TFIDF例如 sentenceData = spark.createDataFrame([ (0.0, "Hi I heard about Spark") ], ["label", "sentence"]) tokenizer = Tokenizer(inputCol="sentence", outputCol="words") wordsData