sentence-similarity

    0熱度

    1回答

    我正在進行潛在語義分析,我試圖從2個文檔中獲得相似度。我在Python上運行我的潛在語義分析代碼,當我運行它時,我得到: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

    0熱度

    1回答

    我已經使用WS4J實現了句子相似性方法。 我已閱讀關於基於兩個句子中的詞相似性的文章中的句子相似性。但我無法找到一種方法,根據單詞的相似性計算並返回單個值作爲整個句子相似度。 類似的問題在這個網站sentence-similarity-using-ws4j 要求在正如你可以看到我已經成功與WS4J高達凡在句子中的任何詞發現在其他句子中的同義詞集的匹配程度代碼(匹配值大於0.9)返回一個匹配消息。但

    0熱度

    1回答

    我有一個django後端(Postgre DB)。 假設一個給定的表,比如說A,有一個名爲'message'的charfield。現在,我想要做的是找到A中與給定實例的「消息」字段具有相似「消息」的所有項目。相似性將基於某種算法。 TL; DR我想根據項目相似性找到項目。 的問題有三個部分: 我該怎麼辦呢?我可以實時做(慢)還是必須預先計算表A中所有項目之間的相似性(這可能會炸燬我的數據庫) 如何

    5熱度

    1回答

    我使用word2vec來表示一個小短語(3到4個字)作爲一個獨特的矢量,要麼通過添加每個單詞嵌入或通過計算字嵌入的平均值。 從我做過的實驗中總會得到相同的餘弦相似度。我懷疑它與word2vec生成的單詞向量在訓練之後是否與單位長度(歐幾里得範數)相同?或者我在代碼中有一個BUG,或者我錯過了一些東西。 下面是代碼: import numpy as np from nltk import Punk