similarity

0熱度

1回答

我希望你能幫我解決一個我正在崩潰的問題。我有一個data.frame有三列：appl,cod,ipc。此數據集有多個行，具有相同的appl，每行對應於一個cod，它與一個ipc相關聯。後者可能是一個或多個值的列表。 appl和cod是整數值。一個例子 row appl cod ipc 11 | 1206 | 3857183 | 16 12 | 1220 | 1063002 | 29

2熱度

1回答

基於Tanimoto係數丟棄過於相似的分子的python函數？

我想寫一個需要兩個列表作爲輸入的python函數：一個包含一些分子SMILES代碼和另一個包含分子名稱的代碼。然後它計算所有分子對之間的TANIMOTO係數（我已經有了這個功能），並分別返回兩個新列表，其中所有分子的斯米爾和其他任何其他分子的名字都不高於a一定的閾值。這是我迄今所做的，但它給錯誤的結果（最讓我得到分子幾乎是一樣的...）： def TanimotoFilter(molist,n

0熱度

1回答

使用與二進制數據的餘弦相似度 - Mahout

我有一個布爾值/二進制值，其中當客戶實際購買產品時找到客戶和產品ID，如果客戶沒有購買它，則找不到。這樣表示的數據集： Dataset 我已經嘗試了不同的方法，如GenericBooleanPrefUserBasedRecommender與TanimotoCoefficient或數似然相似之處，但我自己也嘗試GenericUserBasedRecommender與非中心餘弦相似度，它給了我最高的精

-2熱度

1回答

所有用戶對的計算相似度得分

我有一個包含200,000個用戶，25000個項目和500萬個評級的數據集。我必須計算所有可能的用戶對的相似度分數（通過使用餘弦或皮爾遜相關）。我有用C＃編寫的代碼，當我運行它時，我得到內存溢出錯誤。我已經嘗試了幾乎所有的解決方案（x64應用程序，增加的堆內存等）。我的電腦配置是（核心 - i7 3.4 GHz，12 GB DDR3,2TB硬盤）。有沒有可以幫助我完成這項任務的資源？

1熱度

1回答

T-SQL/PHP顯示字符串類似於字符串中的

這裏超過70％的東西我從來沒有做過，甚至試圖這樣做，現在我需要：我有一個樣本串，讓我們假設非常瞭解$myVar = 'Hello World'。比我有一個數據庫表是這樣的： | ID | sample_string | --------------------- | 1 | Hello World | | 2 | Hello Worlds | | 3 | Hello Word | |

0熱度

1回答

Lucene自定義相似性/評分

我正在尋找一個Lucene（Java）中的相似性模塊，它給出了一個基於權重的評分。我知道這很模糊，最好用一個例子來解釋。 Document 1 ----------- Firstname: Francesca Document 2 ----------- Firstname: Francisco 名字字段是使用Doublemetaphone &精製的Soundex語音算法進行分析。

0熱度

1回答

如何在java中的幾個文檔中比較很多句子

我在2個文檔中有幾個相互比較的句子。我使用公式相似度進行比較，我使用List<List<>>從文檔中獲取元素句子。但它只適用於2個文件，如果我比較它超過三個例如我比較5個或更多的文件不起作用。問題是我如何在幾個文件中得到很多句子來比較它們。這是我的代碼。 List<List<Sentence>> collect = Arrays.asList(new File(p).listFiles()).

0熱度

1回答

使用Solr

我使用Solr的http://lucene.apache.org/solr/ 顯示結果我用每個索引我收集的教程，並在地址http://localhost:8983/solr/demo/browse. 但是，通過圖形界面執行一些簡單的查詢，繳費，現在我將執行通過命令行的一些疑問，所以我用這個： curl http://localhost:8983/solr/demo/query -d ' q=*:

0熱度

1回答

如何檢測大數據上的相似文字？

正如我剛纔所知，simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫，這將非常可靠。有沒有可以加速任務的優化或其他算法？我所想到的就是將文本數據庫分成幾個部分，並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

-3熱度

2回答

基於最高相似度的聚類元素

我正在使用由一組可重用層組成的Docker圖像。現在給出一組圖像，我想合併具有大量共享圖層的圖像。更確切的說：給定N個圖像的集合，我要創建集羣，在一個集羣共享所有圖片超過海誓山盟服務的x％。每個圖像只允許屬於一個羣集。在這裏我用一個相似的措施，以決定哪些圖像簇算法的方向我自己的研究點中的一個集羣是一起的。我知道如何寫的相似性度量。但是，我很難找到一個準確的算法或僞算法來開始。有人可以推薦的算