similarity

    0熱度

    1回答

    我希望你能幫我解決一個我正在崩潰的問題。 我有一個data.frame有三列:appl,cod,ipc。 此數據集有多個行,具有相同的appl,每行對應於一個cod,它與一個ipc相關聯。後者可能是一個或多個值的列表。 appl和cod是整數值。 一個例子 row appl cod ipc 11 | 1206 | 3857183 | 16 12 | 1220 | 1063002 | 29

    2熱度

    1回答

    我想寫一個需要兩個列表作爲輸入的python函數:一個包含一些分子SMILES代碼和另一個包含分子名稱的代碼。 然後它計算所有分子對之間的TANIMOTO係數(我已經有了這個功能),並分別返回兩個新列表,其中所有分子的斯米爾和其他任何其他分子的名字都不高於a一定的閾值。 這是我迄今所做的,但它給錯誤的結果(最讓我得到分子幾乎是一樣的...): def TanimotoFilter(molist,n

    0熱度

    1回答

    我有一個布爾值/二進制值,其中當客戶實際購買產品時找到客戶和產品ID,如果客戶沒有購買它,則找不到。這樣表示的數據集: Dataset 我已經嘗試了不同的方法,如GenericBooleanPrefUserBasedRecommender與TanimotoCoefficient或數似然相似之處,但我自己也嘗試GenericUserBasedRecommender與非中心餘弦相似度,它給了我最高的精

    -2熱度

    1回答

    我有一個包含200,000個用戶,25000個項目和500萬個評級的數據集。我必須計算所有可能的用戶對的相似度分數(通過使用餘弦或皮爾遜相關)。我有用C#編寫的代碼,當我運行它時,我得到內存溢出錯誤。我已經嘗試了幾乎所有的解決方案(x64應用程序,增加的堆內存等)。我的電腦配置是(核心 - i7 3.4 GHz,12 GB DDR3,2TB硬盤)。 有沒有可以幫助我完成這項任務的資源?

    1熱度

    1回答

    這裏超過70%的東西我從來沒有做過,甚至試圖這樣做,現在我需要: 我有一個樣本串,讓我們假設非常瞭解$myVar = 'Hello World'。 比我有一個數據庫表是這樣的: | ID | sample_string | --------------------- | 1 | Hello World | | 2 | Hello Worlds | | 3 | Hello Word | |

    0熱度

    1回答

    我正在尋找一個Lucene(Java)中的相似性模塊,它給出了一個基於權重的評分。我知道這很模糊,最好用一個例子來解釋。 Document 1 ----------- Firstname: Francesca Document 2 ----------- Firstname: Francisco 名字字段是使用Doublemetaphone &精製的Soundex語音算法進行分析。

    0熱度

    1回答

    我在2個文檔中有幾個相互比較的句子。我使用公式相似度進行比較,我使用List<List<>>從文檔中獲取元素句子。但它只適用於2個文件,如果我比較它超過三個例如我比較5個或更多的文件不起作用。 問題是我如何在幾個文件中得到很多句子來比較它們。 這是我的代碼。 List<List<Sentence>> collect = Arrays.asList(new File(p).listFiles()).

    0熱度

    1回答

    我使用Solr的http://lucene.apache.org/solr/ 顯示結果我用每個索引我收集的教程,並在地址http://localhost:8983/solr/demo/browse. 但是,通過圖形界面執行一些簡單的查詢,繳費,現在我將執行通過命令行的一些疑問,所以我用這個: curl http://localhost:8983/solr/demo/query -d ' q=*:

    0熱度

    1回答

    正如我剛纔所知,simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫,這將非常可靠。 有沒有可以加速任務的優化或其他算法? 我所想到的就是將文本數據庫分成幾個部分,並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

    -3熱度

    2回答

    我正在使用由一組可重用層組成的Docker圖像。現在給出一組圖像,我想合併具有大量共享圖層的圖像。 更確切的說:給定N個圖像的集合,我要創建集羣,在一個集羣共享所有圖片超過海誓山盟服務的x%。每個圖像只允許屬於一個羣集。在這裏我用一個相似的措施,以決定哪些圖像簇算法的方向 我自己的研究點中的一個集羣是一起的。我知道如何寫的相似性度量。但是,我很難找到一個準確的算法或僞算法來開始。 有人可以推薦的算