sentence-similarity

    0熱度

    1回答

    我正在處理一個看起來像這樣的文本文件; (這些字是瑞典語) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

    0熱度

    1回答

    我已經下面就本link代碼以找到輸入的X和Y之間的相似性度量: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

    0熱度

    1回答

    我想重複使用名稱相似度的公司(40M +)的巨大列表。我有一個500K的公司名稱對被標記爲相同/不相同(如I.B.M. =國際商用機器)。通過對名稱對的向量差異進行邏輯迴歸建立的模型具有很好的f-分數(0.98),但推論(找到最相似的名字)太慢(每名稱差不多2秒)。 是否可以使用名稱相似性對(正值和負值)來訓練doc2vec模型,從而導致類似名稱具有相似的向量,以便我可以使用像Annoy這樣的快速

    2熱度

    1回答

    我需要使用PHP來組合不同結構化的XML文件。我正在做的是; 使用SimpleXMLElement()類 做其他文件一樣,遞增第一SimpleXMLElement()實例 保存新合併的XML文件中讀取使用simplexml_load_file() 格式化使用新結構中的元素第一個XML文件。 到目前爲止好。棘手的部分是,第一個文件有約。 3000條目,第二個文件有5000條。其中近2000條實際上是

    2熱度

    1回答

    我有句子嵌入尺寸爲2*1*300的句對的輸出X.我想把這個輸出分成兩個形狀爲1*300的向量來計算它的絕對差值和乘積。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

    1熱度

    1回答

    的文檔相似性,我使用TF-IDF與餘弦相似度計算描述 輸入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到類似的輸入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    1熱度

    1回答

    我crereated上elasticsearch指數相同的波紋管: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

    0熱度

    3回答

    我想從10,000篇文章中提取含有藥物和基因名稱的句子。 和我的代碼是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

    -2熱度

    1回答

    我需要一些幫助編寫基於代碼從這些鏈接link1和link2,它會自動計算之間的語義相似的程序。連續的句子和b。句子由1個介入短語,in和整個文檔(1000句子)分隔。 提供的代碼已經標記並可以找到語義相似性,但我不知道如何編寫將計算(並顯示)整個文本中連續和「插入」句子之間的語義相似性的新代碼(a,b )。我不想一遍又一遍地做同樣的事情。

    0熱度

    1回答

    我想創建一個計算2個字符串之間相似度的應用程序。 字符串不長。 3句最長。 我做了一些研究,並且遇到了一些可能的解決方案路徑。話的 首先一個使用袋:計算單詞和比較2個製作載體(餘弦相似性) 第二使用TF-IDF,並比較所產生的載體。 第三是使用word2vec和比較向量。 現在的問題。 表現明智的是word2vec表現更好,TF-IDF的短句子? 培訓word2vec模型的最佳方法是什麼?我應該使