similarity

-2熱度

1回答

我有一對這樣的載體 - 的std ::矢量<的std ::對< INT/VAL1 /，INT/VAL2 />> myVector; 比較'myVector'中第一個和第二個元素（Val1和Val2）中每個對的有效方式是相同還是不相同？我可以想到的是的唯一方法 - 儘管示例中我用整數對 bool IsFirstAndSecondSame(vector<pair<T, T>> myVector)

1熱度

1回答

elasticsearch NGRAM和PostgreSQL卦搜索結果不匹配

我crereated上elasticsearch指數相同的波紋管： "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

0熱度

1回答

實現自定義solr相似性

目前我需要實現自定義solr相似性。所以我發現我需要重寫DefaultSimilarity類才能做到這一點。但我仍然無法弄清楚它應該如何完成，以及從哪裏獲得可用於此目的的源代碼。任何幫助，將不勝感激！

0熱度

1回答

正確使用機器學習算法根據內容而不是用戶歷史找到類似產品的方法

我有大約2-3百萬個產品。每個產品遵循這種結構 { "sku": "Unique ID of Product (String of 20 chars)" "title":"Title of product eg Oneplus 5 - 6GB + 64GB ", "brand":"Brand of product eg OnePlus", "cat1":"F

0熱度

3回答

計算數百萬個文檔之間的相似性度量

我擁有數百萬個文檔（接近1億個），每個文檔都有諸如skills,hobbies，certification和education的字段。我想找出每個文檔與評分之間的相似度。下面是一個數據的例子。 skills hobbies certification education Java fishing PMP MS Python reading novel SCM BS C#

0熱度

1回答

python中的Jaccard相似度

我正試圖找到兩個文檔之間的jaccard相似度。然而，我很難理解功能sklearn.metrics.jaccard_similarity_score()如何在幕後工作。根據我的理解，Jaccard的sim =文檔中的術語與文檔中的術語聯合的交集。考慮下面的例子：我對兩個文件DTM是： array([[1, 1, 1, 1, 2, 0, 1, 0], [2, 1, 1, 0, 1,

1熱度

1回答

LCH相似度 - 需要相同的POS嗎？ Python

比較wordnet相似性度量以查看哪些與我的語料庫最相關/有用 - 在嘗試計算lch時遇到此錯誤消息 - 計算lch相似性需要Synset（'home'.n.01）和Synset（'chronological.a.01'）具有相同的詞性。「在嘗試使用lch之前，我是否必須將列表中的所有單詞標準化爲相同的POS？作爲參考，我能夠成功地計算出wup_similarity，沒有任何POS標準化。我試

1熱度

1回答

Wordnet信息內容（IC）文件Python

NLTK Wordnet中的IC文件之間的主要區別是否有任何文檔？具體來說，尋找brown_ic，semcor_ic，genesis_ic等之間的差異，所以我可以決定哪一個是最適合我的相似度努力字語料。其他問題：完成所有上述相似的措施要求所有的單詞在同一POS？

0熱度

1回答

Pyspark：將RDD轉換爲RowMatrix

我有一個RDD窗體（id1，id2，score）。頂部（5）行看起來像 [(41955624, 42044497, 3.913625989045223e-06), (41955624, 42039940, 0.0001018890937469129), (41955624, 42037797, 7.901647831291928e-05), (41955624, 42011137, -0.0

0熱度

2回答

如何在R中找到1行與其餘數據框之間的最佳相似性？

如何找到某個特定行與數據框中其餘行之間的最佳相似性？我試着解釋我的意思。看看這個數據幀： df <- structure(list(person = 1:5, var1 = c(1L, 5L, 2L, 2L, 5L), var2 = c(4L, 4L, 3L, 2L, 2L), var3 = c(5L, 4L, 4L, 3L, 1L)), .Names = c("person", "var1