jaro-winkler

    1熱度

    1回答

    我有一個有數百萬行的表。現在,當用戶在從表格中搜索字符串或單詞時出現任何拼寫錯誤時,我想從表格推薦用戶正確的單詞或字符串。我使用jaro-winkler算法來比較字符串的距離,但是由於我的數據庫非常龐大,我的查詢花了很多時間來執行。在應用jaro-winkler算法之前,我將如何最小化數據。 有沒有其他更好的方法,我可以通過它從大表快速搜索建議。 我想建立類似的搜索,如谷歌搜索沒有自動建議。我正在

    0熱度

    1回答

    我試圖找到用於SQL Server的UDF dbo.fn_calculateJaroWinkler(用於計算Jaro Winkler距離)並且找不到它。有人寫過,可以分享嗎?

    0熱度

    1回答

    我一直在琢磨如何實現這個算法在處理SQL個月的實施,https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance 如何能不能做到?

    0熱度

    1回答

    我有2個表 - 一個有100萬條記錄,另一個有40000條記錄。 如果在另一個表上有類似的字符串,我需要比較表中的每條記錄。 的事情是,這個過程是非常緩慢的 我需要 優化此過程 爲表A(SELECT名字||」「||姓氏從員工的全名) 環 SELECT COUNT(*) INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila

    5熱度

    3回答

    我試圖編寫一個函數來檢測用戶輸入特定的短語/句子/單詞/單詞的準確程度。我的目標是建立一個應用程序來訓練用戶輸入某些短語的準確性。 我最初的直覺是使用基本的levenshtein距離算法(主要是因爲這是我唯一的頭腦知道的算法)。 但經過多一點研究,我看到Jaro-Winkler是一個稍微有趣的算法,因爲它考慮了換位。 我甚至發現,談到這些算法之間的差異的鏈接: Difference between

    0熱度

    1回答

    我有一個包含一些短語的文件。通過lucene使用jarowinkler,它應該從我的輸入中得到最類似的短語。 這是我的問題的一個例子。 我們有一個包含文件: //phrases.txt this is goodd this is good this is god 如果我輸入的是這是一個好,它應該是讓我「這是件好事」從文件中第一次,因爲這裏的相似性得分是最大(1)。但由於某種原因,它返回:

    1熱度

    1回答

    如果一個字符串接近表中的字符串,它會用表中的字符串取代嗎? 像一個拼寫檢查函數,它搜索一個表,如果輸入接近於表中的一個,它將修復它,所以表中的一個和字符串是相同的?

    0熱度

    1回答

    我有一個表(ResponseData)與列RESPONSE_ID,RESPONSEDATA,KEY1,KEY2,KEY3,KEY4,VALUE1,VALUE2,VALUE3,VALUE4 用戶可以插入數據任何以下類別。 1, 「我的回答一個」, 「姓名」,NULL,NULL,NULL, 「蘋果」,NULL,NULL,NULL 2, 「我的回答兩個」, 「姓名」,「年齡」,NULL,NULL, 「蘋

    0熱度

    1回答

    是否有任何庫或C++中的函數的代碼,我可以用它來比較C++中的數值向量?

    38熱度

    1回答

    我有一個用例,我需要對來自多個文件的數百萬條記錄進行模糊匹配。我確定了兩種算法:Jaro-Winkler和Levenshtein編輯距離。 當我開始探索這兩者時,我無法理解兩者之間的確切區別。 Levenshtein似乎給出了兩個字符串之間的編輯數量,Jaro-Winkler給出了0.0到1.0之間的匹配分數。我不明白這個算法。因爲我需要使用任何一種算法,所以我需要知道算法性能的確切差異。