cosine-similarity

    0熱度

    1回答

    我最近在分配任務的地方是使用20_newgroups數據集,並使用3種不同的矢量化技術(文字包,TF,TFIDF)來表示文件的工作矢量格式,然後嘗試分析20_Newsgroups數據集中每個類之間的平均餘弦相似度之間的差異。所以這就是我在Python中想要做的。我正在讀取數據並將其傳遞給sklearn.feature_extraction.text.CountVectorizer Bag's Wo

    0熱度

    1回答

    我必須計算每行之間的餘弦距離,但我不知道如何使用Spark API Dataframes優雅地完成它。這個想法是計算每行(項目)的相似度,並通過比較行之間的相似性來獲得前10個相似度。 - >這是需要Item-Item Recommender System。 所有我讀過有關它被稱爲計算相似度超過列Apache Spark Python Cosine Similarity over DataFram

    0熱度

    1回答

    ,我試圖通過pyspark做使用columnSimiliraties和 import pyspark pyspark.__version__ #'2.2.0' from pyspark.mllib.linalg.distributed import RowMatrix, IndexedRowMatrix test = np.array[[1,2,3,4,5,6,7,8,9,10],[1

    0熱度

    1回答

    我有一個數據集,其中包含工人與他們的人口統計信息,如年齡性別,地址等及其工作地點。我從數據集創建了一個RDD並將其轉換爲DataFrame。 每個ID有多個條目。因此,我創建了一個DataFrame,其中只包含工作人員的ID和他/她工作的各個辦公地點。 |----------|----------------| | **ID** **Office_Loc** | |------

    0熱度

    1回答

    我想在包含許多行的文件上使用TfidfVectorizer(),每個文本都包含一個短語。然後我想用一小部分短語做一個測試文件,做TfidfVectorizer(),然後取原始文件和測試文件之間的餘弦相似度,這樣對於測試文件中的給定短語,我可以檢索出前N個匹配原始文件。這裏是我的嘗試: corpus = tuple(open("original.txt").read().split('\n'))

    0熱度

    1回答

    我試圖來計算語料庫文本文檔的所有可能的組合之間的餘弦相似度得分。我正在使用scikit-learn的cosine_similarity函數來執行此操作。由於我的語料庫非常龐大(3000萬份文檔),因此語料庫中文檔之間的可能組合數量太多,無法存儲爲數據框。因此,在將它們存儲在數據框中供將來使用之前,我想使用閾值過濾相似性分數,因爲它們正在創建。雖然我這樣做了,但我也希望將這些文檔中的每個文檔的相應I

    1熱度

    1回答

    的文檔相似性,我使用TF-IDF與餘弦相似度計算描述 輸入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到類似的輸入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    1熱度

    2回答

    我有一個TF/IDF向量的語料庫V,所以它們很稀疏。 這是一個數組大約2,500到150,000。 我想計算語料庫中每個文檔之間的餘弦相似度。 這幾乎是我能想到的最天真的方式。我知道已經有三四次優化,但我不想承擔答案。我想知道計算中使用Chapel的計算最有效的方法。我們的目標是讓X作爲對稱矩陣diag(X) = 0 use Norm, LinearAlgebra; var ndoc

    0熱度

    1回答

    from gensim import corpora, models, similarities documents = ["This is a book about cars, dinosaurs, and fences"] # remove common words and tokenize stoplist = set('for a of the and to in - , is'

    0熱度

    2回答

    我試圖計算所有值之間的餘弦相似度。 1000 * 20000的計算時間花了我10多分鐘。 代碼: from gensim import matutils # array_A contains 1,000 TF-IDF values # array_B contains 20,000 TF-IDF values for x in array_A: for y in array_B: