jaro-winkler

1熱度

1回答

我有一個有數百萬行的表。現在，當用戶在從表格中搜索字符串或單詞時出現任何拼寫錯誤時，我想從表格推薦用戶正確的單詞或字符串。我使用jaro-winkler算法來比較字符串的距離，但是由於我的數據庫非常龐大，我的查詢花了很多時間來執行。在應用jaro-winkler算法之前，我將如何最小化數據。有沒有其他更好的方法，我可以通過它從大表快速搜索建議。我想建立類似的搜索，如谷歌搜索沒有自動建議。我正在

0熱度

1回答

Jaro Winkler在SQL服務器

我試圖找到用於SQL Server的UDF dbo.fn_calculateJaroWinkler（用於計算Jaro Winkler距離）並且找不到它。有人寫過，可以分享嗎？

0熱度

1回答

在處理SQL的哈羅溫克勒距離算法

我一直在琢磨如何實現這個算法在處理SQL個月的實施，https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance 如何能不能做到？

0熱度

1回答

utl_match比較很多記錄

我有2個表 - 一個有100萬條記錄，另一個有40000條記錄。如果在另一個表上有類似的字符串，我需要比較表中的每條記錄。的事情是，這個過程是非常緩慢的我需要優化此過程爲表A（SELECT名字||」「||姓氏從員工的全名）環 SELECT COUNT（*） INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila

5熱度

3回答

什麼字符串距離算法最適合測量打字精度？

我試圖編寫一個函數來檢測用戶輸入特定的短語/句子/單詞/單詞的準確程度。我的目標是建立一個應用程序來訓練用戶輸入某些短語的準確性。我最初的直覺是使用基本的levenshtein距離算法（主要是因爲這是我唯一的頭腦知道的算法）。但經過多一點研究，我看到Jaro-Winkler是一個稍微有趣的算法，因爲它考慮了換位。我甚至發現，談到這些算法之間的差異的鏈接： Difference between

0熱度

1回答

lucene中的JarowinklerDistance返回奇怪的結果

我有一個包含一些短語的文件。通過lucene使用jarowinkler，它應該從我的輸入中得到最類似的短語。這是我的問題的一個例子。我們有一個包含文件： //phrases.txt this is goodd this is good this is god 如果我輸入的是這是一個好，它應該是讓我「這是件好事」從文件中第一次，因爲這裏的相似性得分是最大（1）。但由於某種原因，它返回：

1熱度

1回答

如何在lua中創建一個字符串字典函數？

如果一個字符串接近表中的字符串，它會用表中的字符串取代嗎？像一個拼寫檢查函數，它搜索一個表，如果輸入接近於表中的一個，它將修復它，所以表中的一個和字符串是相同的？

0熱度

1回答

更快的搜索查詢與動態哪裏列oracle db

我有一個表（ResponseData）與列RESPONSE_ID，RESPONSEDATA，KEY1，KEY2，KEY3，KEY4，VALUE1，VALUE2，VALUE3，VALUE4 用戶可以插入數據任何以下類別。 1，「我的回答一個」，「姓名」，NULL，NULL，NULL，「蘋果」，NULL，NULL，NULL 2，「我的回答兩個」，「姓名」，「年齡」，NULL，NULL，「蘋

0熱度

1回答

快速Jaro Winkler C++代碼爲數字向量

是否有任何庫或C++中的函數的代碼，我可以用它來比較C++中的數值向量？

38熱度

1回答

Jaro-Winkler和Levenshtein距離之間的區別？

我有一個用例，我需要對來自多個文件的數百萬條記錄進行模糊匹配。我確定了兩種算法：Jaro-Winkler和Levenshtein編輯距離。當我開始探索這兩者時，我無法理解兩者之間的確切區別。 Levenshtein似乎給出了兩個字符串之間的編輯數量，Jaro-Winkler給出了0.0到1.0之間的匹配分數。我不明白這個算法。因爲我需要使用任何一種算法，所以我需要知道算法性能的確切差異。