levenshtein-distance

3熱度

3回答

我有一個Postgres後端的Rails應用程序。我需要添加全文搜索，這將允許基於Levenshtein距離或其他類似指標的模糊搜索。添加詞法分析器/詞幹分析器必須處理非英語單詞的事實（只要在搜索時關閉語言相關功能就可以了，不要混淆目標語言，而英語引擎認爲這些詞語可能有意義的詞語是無關緊要的）。我想，因爲它不具有模糊搜索Postgres的TSEARCH不會在這裏適用 - 請糾正我，如果我錯了。

-1熱度

5回答

Levenshtein距離組合

LD = Levenshtein距離只是在紙上做了幾個例子，這似乎工作，但有誰知道這是否總是如此？可以說我有3個字符串 BOT BOB BOM LD（BOT，BOB）= 1 和 LD（BOB，BOM）= 1 然後 LD（BOT，BOM）= MAX（LD（BOT，BOB），LD（BOB，DOM））= 1 OR BAAB BBAB BCCD LD（BBAB，BAAB）= 1 和 LD（BBAB，B

1熱度

3回答

我可以使用ActiveRecord查找基於最近匹配（levenshtein距離）的行

我在我的數據庫中有一個字符串表。我選擇其中之一，A。我如何搜索表格的其餘部分，找到最相似的字符串A？

6熱度

3回答

加速PHP中的levenshtein/similar_text

我目前使用similar_text來比較一個字符串與大約50,000的列表，雖然由於比較的數量很慢，所以它很慢。大約需要11分鐘比較〜500個獨特的字符串。在運行此操作之前，我會檢查數據庫以查看它是否已經在過去處理過，因此每次運行inital後它都接近即時。我敢肯定，使用levenshtein會稍微快一些，而在手冊中發佈的LevenshteinDistance函數看起來很有趣。我是否錯過了一些

2熱度

3回答

非英文字符串上的Levenshtein距離

Levenshtein distance算法對於非英文字符串也適用嗎？更新：在比較亞洲字符時，它會像Java這樣的語言自動工作嗎？

36熱度

6回答

Python中的字符串相似性度量

我想要查找兩個字符串之間的字符串相似度。 This頁面有一些例子。 Python的實現爲Levenshtein algorithm。有沒有更好的算法，（有希望是一個Python庫），在這些限制條件下。我想做字符串之間的模糊匹配。例如匹配（'你好，你所有的人'，'你好，所有你'peopl'）應該返回真假陰性是可以接受的，假陽性，除非極少數情況下不是。這是在非實時設置下完成的，因此速度不是很關心

3熱度

3回答

萊文斯坦問題

在Levenshtein Distance算法，這是什麼做的線？： d[i][j] = Minimum (d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1] + cost); 雖然它得到了最低所有這些值的，爲什麼成本加入到結束，爲什麼我們還要+ 1在每個數組索引器的末尾（前兩個參數）？

13熱度

5回答

文字相似度算法

我有兩個字幕文件。我需要告訴他們是否代表相同的文字，或相似文本有時也有像「風在吹......正在播放的音樂」只在一個文件中註釋的功能。但是，80％的內容將是相同的。該函數必須返回TRUE（文件表示相同的文本）。有時還有像1這樣的拼寫錯誤，而不是l（one-L），如下所示：她1eft的行李。當然，這意味着函數必須返回TRUE。我的評論：函數應該返回文本的相似度的百分比 - 同意「所

8熱度

2回答

如何配置SOLR以使用Levenshtein近似字符串匹配？

Apaches Solr搜索引擎是否提供近似字符串匹配，例如通過Levenshtein算法？我正在尋找一種方法來查找姓氏的客戶。但我無法保證名稱的正確性。即使我搜索「Levenstein」，我如何配置SOLR以使其能夠找到人「Levenshtein」？

12熱度

3回答

匹配核心數據存儲中的近似字符串

我正在寫一個核心數據應用程序的小問題。我有兩個不同的模型，上下文和永久性商店。一個是我的應用數據，另一個是與我相關的信息的網站。大多數情況下，我只將一條記錄從我的應用匹配到另一條記錄。但有時候，我必須回退到模糊字符串匹配來鏈接兩條記錄。我試圖匹配歌曲標題。我的地方標題就可以了（由）"The French Idealist is in your pensée"和遠程歌名可能是"01 - 10 -