cosine-similarity

0熱度

1回答

我試圖用火花提交，因爲這 spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar 這個腳本是在60K記錄實施點心算法運

3熱度

1回答

Python tf-idf：快速更新tf-idf矩陣的方法

我有一個包含數千行文本的數據集，我的目標是計算tfidf得分，然後計算文檔之間的餘弦相似度，這就是我使用gensim在Python跟着教程： dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in dat] tfidf = models.TfidfModel(corpus) co

1熱度

1回答

apache.commons.text餘弦距離

我正在嘗試使用餘弦距離類的apache commons。但它總是返回1.0。我錯過了什麼？這裏是我的代碼： public class ComputeDistance { public static void main(String[] args)throws Exception{ CosineDistance dist = new CosineDistance();

0熱度

1回答

Similarity Metrics

我試圖研究不同的指標，並發現許多相似性度量：歐幾里得距離動態時間扭曲，用實際距離編輯距離懲罰DISSIM，序列加權對準模型，空間組裝距離。但是，我有一個問題：是否有任何其他指標以時間序列方式給出相似性。我正在尋找的東西不僅計算特徵之間的相似性度量，而且還按照時間序列方式（按特徵的接收順序）排列它們？對於例如：如果我們有特徵F1，F2，F3，F4，F5，F6,7，F8和它們的功能，如果F1

0熱度

1回答

如何在ne04j中應用基於內容的過濾

我有一個數據格式如下，其中第一列代表產品節點，以下所有列代表產品的屬性。我想在Neo4j中使用基於內容的過濾算法，使用餘弦相似度。爲此，我相信，我需要將fx列定義爲每個產品節點的屬性，然後將這些屬性作爲向量調用，然後應用產品之間的餘弦相似性。我在做兩件事情時遇到了困難： 1.如何一次將這些列定義爲屬性（因爲列可能超過100個）。 2.如何將所有屬性值作爲矢量調用以便能夠應用餘弦相似度。產品F1

0熱度

1回答

編寫自定義內核svm在R

我正在尋找在R中使用e1071包的svm（）函數。我是這個包的新手，我想知道是否有可能編寫自己的自定義內核可調用SVM（）。我看到有幾個預加載的內核，但是我沒有看到餘弦相似性內核，這正是我需要的。或者，R中是否還有另一個軟件包，允許您使用餘弦相似性內核運行SVM？

1熱度

1回答

將每個文檔的相似性矩陣動態分配給數組以便導出到JSON

我對Python很新穎，所以我確定這很簡單，我沒有做，但我無法弄清楚。我爲我的語料庫中的每個文檔創建了相似性矩陣，並且我想將它們分配迴帶有文檔名稱鍵的字典，以跟蹤每個文檔之間的相似性。但是，它始終將最後一個矩陣分配給每個鍵，而不是相應的鍵矩陣。 import pandas as pd import numpy as np import nltk import string from co

2熱度

1回答

餘弦相似度

我碰到這個公式閱讀並傳來：的公式是餘弦相似性。我認爲這看起來很有趣，我創建了一個numpy數組，其user_id作爲row和item_id作爲列。例如，讓M是這個矩陣： M = [[2,3,4,1,0],[0,0,0,0,5],[5,4,3,0,0],[1,1,1,1,1]] 這裏矩陣內的條目是收視率的人u基於u行和列i已經給項目i。我想爲這個矩陣之間的項（行）計算餘弦相似度。這應該產生一個

0熱度

1回答

如何找到兩行數據之間的相似性

我嘗試以編程方式從數據集中刪除幾乎重複的數據之一。我的數據集在邏輯上類似於下表。如您所見，數據集中有兩行，人類可以很容易地理解這兩個數據是相關的，並且可能由同一個人添加。我解決這個問題是使用萊文斯坦比較單獨字段（姓名，地址，電話號碼），並發現他們的相似率。然後我計算平均比率爲0.77873。這種相似性結果似乎很低。我的python代碼就像 from Levenshtein import rati

0熱度

1回答

SQL計算

假設你在構建一個數據庫中的表如下： create table data (v int, base int, w_td float); insert into data values (99,1,4); insert into data values (99,2,3); insert into data values (99,3,4); insert into data values (12