levenshtein-distance

    3熱度

    3回答

    我有一個Postgres後端的Rails應用程序。 我需要添加全文搜索,這將允許基於Levenshtein距離或其他類似指標的模糊搜索。添加詞法分析器/詞幹分析器必須處理非英語單詞的事實(只要在搜索時關閉語言相關功能就可以了,不要混淆目標語言,而英語引擎認爲這些詞語可能有意義的詞語是無關緊要的)。 我想,因爲它不具有模糊搜索Postgres的TSEARCH不會在這裏適用 - 請糾正我,如果我錯了。

    -1熱度

    5回答

    LD = Levenshtein距離 只是在紙上做了幾個例子,這似乎工作,但有誰知道這是否總是如此? 可以說我有3個字符串 BOT BOB BOM LD(BOT,BOB)= 1 和 LD(BOB,BOM)= 1 然後 LD(BOT,BOM)= MAX(LD(BOT,BOB),LD(BOB,DOM))= 1 OR BAAB BBAB BCCD LD(BBAB,BAAB)= 1 和 LD(BBAB,B

    1熱度

    3回答

    我在我的數據庫中有一個字符串表。我選擇其中之一,A。 我如何搜索表格的其餘部分,找到最相似的字符串A?

    6熱度

    3回答

    我目前使用similar_text來比較一個字符串與大約50,000的列表,雖然由於比較的數量很慢,所以它很慢。大約需要11分鐘比較〜500個獨特的字符串。 在運行此操作之前,我會檢查數據庫以查看它是否已經在過去處理過,因此每次運行inital後它都接近即時。 我敢肯定,使用levenshtein會稍微快一些,而在手冊中發佈的LevenshteinDistance函數看起來很有趣。我是否錯過了一些

    2熱度

    3回答

    Levenshtein distance算法對於非英文字符串也適用嗎? 更新:在比較亞洲字符時,它會像Java這樣的語言自動工作嗎?

    36熱度

    6回答

    我想要查找兩個字符串之間的字符串相似度。 This頁面有一些例子。 Python的實現爲Levenshtein algorithm。有沒有更好的算法,(有希望是一個Python庫),在這些限制條件下。 我想做字符串之間的模糊匹配。例如匹配('你好,你所有的人','你好,所有你'peopl')應該返回真 假陰性是可以接受的,假陽性,除非極少數情況下不是。 這是在非實時設置下完成的,因此速度不是很關心

    3熱度

    3回答

    在Levenshtein Distance算法,這是什麼做的線?: d[i][j] = Minimum (d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1] + cost); 雖然它得到了最低所有這些值的,爲什麼成本加入到結束,爲什麼我們還要+ 1在每個數組索引器的末尾(前兩個參數)?

    13熱度

    5回答

    我有兩個字幕文件。 我需要告訴他們是否代表相同的文字,或相似文本 有時也有像「風在吹......正在播放的音樂」只在一個文件中註釋的功能。 但是,80%的內容將是相同的。該函數必須返回TRUE(文件表示相同的文本)。 有時還有像1這樣的拼寫錯誤,而不是l(one-L),如下所示: 她1eft的行李。 當然,這意味着函數必須返回TRUE。 我的評論: 函數應該返回文本的相似度的百分比 - 同意 「所

    8熱度

    2回答

    Apaches Solr搜索引擎是否提供近似字符串匹配,例如通過Levenshtein算法? 我正在尋找一種方法來查找姓氏的客戶。但我無法保證名稱的正確性。即使我搜索「Levenstein」,我如何配置SOLR以使其能夠找到人 「Levenshtein」?

    12熱度

    3回答

    我正在寫一個核心數據應用程序的小問題。我有兩個不同的模型,上下文和永久性商店。一個是我的應用數據,另一個是與我相關的信息的網站。 大多數情況下,我只將一條記錄從我的應用匹配到另一條記錄。但有時候,我必須回退到模糊字符串匹配來鏈接兩條記錄。 我試圖匹配歌曲標題。我的地方標題就可以了(由)"The French Idealist is in your pensée"和遠程歌名可能是"01 - 10 -