similarity

    0熱度

    1回答

    我們遇到以下問題:我們有一組輸入視頻(每部視頻約2-5分鐘)和一組輸出視頻。現在我們要自動找出輸出視頻中使用哪個輸入視頻(或其中的部分)。理想情況下,不僅要認識到使用了輸入視頻,還要使用多少秒。輸入的視頻也可以編輯(顏色,剪切等)。一個想法是從輸入視頻創建截圖(每10秒)以後搜索輸出視頻並分析相似度。 是否有unix軟件工具?或有人有一個想法?

    0熱度

    2回答

    我嘗試建立一個工具來計算2個字之間的相似性,我發現有來自曼徹斯特城市大學的公式如下: 直到現在,我仍然感到困惑如何獲得h是分層語義網中消費者的深度。 據我的理解,h是從頂部單詞到某個單詞的路徑長度,作爲參考文獻,最上面的單詞是NOUN的'實體'。 但是另一種單詞如ADJ,ADV,VERB ......怎麼樣? 如果我們已經擁有了頂級的話,我們如何能夠從它列出的路徑,我們需要計算 本文是在以下鏈接詞

    2熱度

    1回答

    給定的樣本掩蓋陣列和在KDTree查詢, In [6]: data = np.arange(9).reshape((3,3))*1.0 In [7]: madata = np.ma.array(data) In [9]: madata[1,1] = ma.masked In [10]: madata Out[10]: masked_array(data = [[0.0 1.0 2

    1熱度

    2回答

    我正在使用simhash,但也看到minhash更有效。 但我不明白。 請爲我解釋:什麼比simhash更有利的minhash?

    0熱度

    1回答

    我有一個Scala代碼,計算一組字符串之間的相似度並給出所有的唯一字符串。 val filtered = z.reverse.foldLeft((List.empty[String],z.reverse)) { case ((acc, zt), zz) => if (zt.tail.exists(tt => similarity(tt, zz) < threshold)) a

    0熱度

    1回答

    我有三個角陣A,B,C都是大小508X508的double。主對角線上方的所有值都不爲零,而其他每個單元均爲零。 A and B中的數據是在第一天然後是第二天從傳感器收集的。同時,最佳數據存儲在C。 我的問題是如何找到哪個陣列A,B更類似於C ??? 什麼是最好的統計方法來實現,如果可能的話可能是C#代碼捕捉?

    -2熱度

    1回答

    目前工作的一個項目執行以下操作: 取2名5個字之間最常用的短語在一大段文字(都好) 返回與$短語=> $出現的數組 我現在想要獲取這個數組中的每個值,並檢查數組的其餘部分是否存在類似的數據,如果是,將它們合併爲一個並總結它們的出現次數。 我想用similar_text()來比較與短語的相似程度,如果它大於95,那麼我想合併它們。 什麼是最有效的方法呢?我正在嘗試以毫秒爲單位進行優化。 現在,我正在

    6熱度

    1回答

    我有一個數據框如下:框架的形狀是(1510,1399)。列代表產品,行代表用戶爲給定產品分配的值(0或1)。我怎樣才能計算一個jaccard_similarity_score? 我創建了一個佔位符數據框中列出的產品對產品 data_ibs = pd.DataFrame(index=data_g.columns,columns=data_g.columns) 我不知道如何遍歷雖然data_ibs

    1熱度

    1回答

    我剛開始學習NLP以實現某些功能。目前我正在經歷非常基礎的事情。但我很想知道下面是否可能,以及它的技術名稱是什麼 我想要的是讓我們說我有幾個像'打開鉻'或'打開mozilla'的命令。用戶可以自然地鍵入'我希望你打開鉻'。是否可以將輸入轉換爲固定模板。原因是,我可能會爲每個模板編寫函數。轉換模板將幫助我通過查看第二個單詞來了解用戶想要打開的程序。

    1熱度

    1回答

    我有受控詞彙表的列表,例如term1,term2,termN ..文檔可能有一個或多個受控詞彙表,但每個詞彙表對於每個文檔只能出現一次。 假設總控制詞彙表爲Term1,Term2,Term3,Term4,Term5,Term6。 文件1(4分計):字詞1,TERM2,term5,term6 文檔2(2分換算):TERM2,term5 選項1: 該捷卡的方法着眼於兩個數據設置並找到兩個值均等於1的事