cosine-similarity

    0熱度

    1回答

    我試圖用火花提交,因爲這 spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar 這個腳本是在60K記錄實施點心算法運

    3熱度

    1回答

    我有一個包含數千行文本的數據集,我的目標是計算tfidf得分,然後計算文檔之間的餘弦相似度,這就是我使用gensim在Python跟着教程: dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in dat] tfidf = models.TfidfModel(corpus) co

    1熱度

    1回答

    我正在嘗試使用餘弦距離類的apache commons。但它總是返回1.0。我錯過了什麼?這裏是我的代碼: public class ComputeDistance { public static void main(String[] args)throws Exception{ CosineDistance dist = new CosineDistance();

    0熱度

    1回答

    我試圖研究不同的指標,並發現許多相似性度量:歐幾里得距離動態時間扭曲,用實際距離編輯距離 懲罰DISSIM,序列加權對準模型,空間組裝距離。 但是,我有一個問題:是否有任何其他指標以時間序列方式給出相似性。 我正在尋找的東西不僅計算特徵之間的相似性度量,而且還按照時間序列方式(按特徵的接收順序)排列它們? 對於例如:如果我們有特徵F1,F2,F3,F4,F5,F6,7,F8和它們的功能,如果F1

    0熱度

    1回答

    我有一個數據格式如下,其中第一列代表產品節點,以下所有列代表產品的屬性。我想在Neo4j中使用基於內容的過濾算法,使用餘弦相似度。爲此,我相信,我需要將fx列定義爲每個產品節點的屬性,然後將這些屬性作爲向量調用,然後應用產品之間的餘弦相似性。我在做兩件事情時遇到了困難: 1.如何一次將這些列定義爲屬性(因爲列可能超過100個)。 2.如何將所有屬性值作爲矢量調用以便能夠應用餘弦相似度。 產品F1

    0熱度

    1回答

    我正在尋找在R中使用e1071包的svm()函數。我是這個包的新手,我想知道是否有可能編寫自己的自定義內核可調用SVM()。我看到有幾個預加載的內核,但是我沒有看到餘弦相似性內核,這正是我需要的。 或者,R中是否還有另一個軟件包,允許您使用餘弦相似性內核運行SVM?

    1熱度

    1回答

    我對Python很新穎,所以我確定這很簡單,我沒有做,但我無法弄清楚。我爲我的語料庫中的每個文檔創建了相似性矩陣,並且我想將它們分配迴帶有文檔名稱鍵的字典,以跟蹤每個文檔之間的相似性。 但是,它始終將最後一個矩陣分配給每個鍵,而不是相應的鍵矩陣。 import pandas as pd import numpy as np import nltk import string from co

    2熱度

    1回答

    我碰到這個公式閱讀並傳來: 的公式是餘弦相似性。我認爲這看起來很有趣,我創建了一個numpy數組,其user_id作爲row和item_id作爲列。例如,讓M是這個矩陣: M = [[2,3,4,1,0],[0,0,0,0,5],[5,4,3,0,0],[1,1,1,1,1]] 這裏矩陣內的條目是收視率的人u基於u行和列i已經給項目i。我想爲這個矩陣之間的項(行)計算餘弦相似度。這應該產生一個

    0熱度

    1回答

    我嘗試以編程方式從數據集中刪除幾乎重複的數據之一。我的數據集在邏輯上類似於下表。如您所見,數據集中有兩行,人類可以很容易地理解這兩個數據是相關的,並且可能由同一個人添加。 我解決這個問題是使用萊文斯坦比較單獨字段(姓名,地址,電話號碼),並發現他們的相似率。然後我計算平均比率爲0.77873。這種相似性結果似乎很低。我的python代碼就像 from Levenshtein import rati

    0熱度

    1回答

    假設你在構建一個數據庫中的表如下: create table data (v int, base int, w_td float); insert into data values (99,1,4); insert into data values (99,2,3); insert into data values (99,3,4); insert into data values (12