cosine-similarity

    1熱度

    1回答

    我有受控詞彙表的列表,例如term1,term2,termN ..文檔可能有一個或多個受控詞彙表,但每個詞彙表對於每個文檔只能出現一次。 假設總控制詞彙表爲Term1,Term2,Term3,Term4,Term5,Term6。 文件1(4分計):字詞1,TERM2,term5,term6 文檔2(2分換算):TERM2,term5 選項1: 該捷卡的方法着眼於兩個數據設置並找到兩個值均等於1的事

    1熱度

    2回答

    我正在使用simhash,但也看到minhash更有效。 但我不明白。 請爲我解釋:什麼比simhash更有利的minhash?

    2熱度

    1回答

    我得到該呼叫的以下錯誤cosine_similarity numerator = sum(a*b for a,b in zip(x,y)) TypeError: only integer arrays with one element can be converted to an index 我想從一個關鍵字的關鍵字共生矩陣CountVectorizer返回的文檔關鍵字矩陣。 我覺得有一些c

    1熱度

    1回答

    tfvect = TfidfVectorizer(use_idf=True, stop_words = 'english') wholeword = df_all['search_term']+" "+df_all['product_title'] vocab = tfvect.fit_transform(wholeword) st = tfvect.transform(df_all['se

    0熱度

    1回答

    我在DeepLearning4j框架中使用了ParagraphVector工具。我正在做的是在一組文本文檔上訓練模型,然後計算這些文檔之間的相似度。 現在,作爲參考頁面(http://deeplearning4j.org/word2vec)說,工具用於計算相似度的度量是餘弦相似度,應該包含在0和1之間。但是,對於某些文檔對,我會得到負面分數。 有人可以告訴爲什麼嗎? 預先感謝您。

    4熱度

    2回答

    在SO和Web上有幾個問題描述如何在兩個字符串之間採用cosine similarity,甚至在TFIDF作爲權重的兩個字符串之間。但是像scikit的linear_kernel這樣的函數的輸出讓我有點困惑。 考慮下面的代碼: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer a =

    -2熱度

    1回答

    我需要計算給定值的餘弦定律,如上所示。我測試了每個值,看看是否爲方程的部分進行了正確的計算。 我需要找到給定角度「a」和方程中的餘弦,但不計算該值。我該如何解決這個問題。 double b = 13; //side double c = 15; // other side double a =15; // angle double cosines = Math.pow(b, 2) + Mat

    1熱度

    2回答

    我有在不同時間創建的文檔的集合。我需要知道每個新來的文檔,它與已經添加的文檔集有多相似。新文件可以添加新條款,因此在這些文件中,我預計「新穎性」會很高。我需要得到這個新奇的感覺(或者,距離) 例如,假設有D0,D1,D2,D3已經和我有一個新的文檔D4 我想感d4與d0,d1,d2和d3有多不同。 我已經想到了一些方法,但也有一些限制: 一)各(D0,D4),(D1,D4),(D2,D4),(D3

    3熱度

    2回答

    在python中,有沒有一種向量化的高效方法來計算稀疏矩陣u的稀疏矩陣v的餘弦距離,從而產生對應於cosine(u,v[0]), cosine(u,v[1]), ..., cosine(u, v[n])的元素[1, 2, ..., n]的數組?

    0熱度

    1回答

    我有一個名爲向量的矩陣[i] [j]。我想計算每行之間的餘弦相似度。例如,對於這個矩陣的計算 1 0 1 0 1 0 0 v= 0 0 1 1 1 0 1 1 1 0 0 1 0 1 我想有相似度計算,ROW1和列2,ROW1和ROW3,ROW2和row3.Further之間更分別如果ROW1和ROW2之間的相似性等於= 0.6和其他0.5和0.4 。我想在這些行的每個元素(e =