levenshtein-distance

    0熱度

    1回答

    不同的軟件項目有不同的編碼約定;即使在同一個項目中可能會使用不同的語言,並且會有不同的慣例。對於搜索文檔(源文件之外出現)以及來自源代碼的標識符標記有什麼好處? 例如,如果源有 self._def_passwd,或this.defPasswrd,在文檔樹查詢應力求符合默認密碼。 到目前爲止,我一直試圖通過Levenshtein距離進行排序,該距離適用於小的編輯距離,但是當我增加閾值時存在太多的誤報

    8熱度

    3回答

    我正在研究C++中的拼寫檢查器,並且我被困在實現中的某個步驟中。 比方說,我們有一個拼寫正確的單詞和輸入的字符串的文本文件,我們想檢查拼寫錯誤。如果該字符串是一個拼寫錯誤的單詞,我可以通過檢查文本文件中的所有單詞並選擇與最少字母不同的單詞來輕鬆找到它的正確格式。對於這種類型的輸入,我已經實現了一個函數來計算2個字符串之間的Levenshtein編輯距離。到現在爲止還挺好。 現在,困難的部分:如果輸

    3熱度

    1回答

    假設我想實現Levensthein distance(編輯距離)的通常動態編程算法。這是很容易拿出遞歸: editDistance [] ys = length ys editDistance xs [] = length xs editDistance (x:xs) (y:ys) | x == y = editDistance xs ys | otherwise = mi

    3熱度

    2回答

    我已經閱讀了有關計算兩個不同單詞之間距離的Levenshtein距離。 我有一個源字符串,我必須將它與所有10,000個目標字匹配。應該返回最接近的單詞。 問題是我已經給出了10,000個目標詞的列表,並且輸入源詞也是巨大的....那麼在這裏應用什麼最短和高效的算法。 Levenshtein距離計算爲每個組合(強力邏輯)將是非常耗時的。 任何提示或想法是最受歡迎的。

    2熱度

    1回答

    你能解釋爲什麼我需要在確定levenshtein百分比時使用輸入字符串和匹配字符串嗎? $str1len = strlen($str1); $str2len = strlen($str2); if($str1len < $str2len){ $pct = ($str1len - $lev)/$str1len; } else { $pct = ($str2len

    6熱度

    2回答

    首先,我想說我是python中的新手。我試圖爲許多單詞列表計算Levenshtein距離。直到現在,我成功地爲一對單詞編寫代碼,但我在列表中遇到了一些問題。我只是HABE文字下面一個其他像這樣兩個列表: 卡洛斯 STIV 彼得 我想用Levenshtein距離爲類似的做法。可能somebady告訴我如何加載列表,然後使用函數來計算de distance? 我會感激! 這裏是我的代碼只是兩個字符串:

    5熱度

    3回答

    我試圖想出提出搜索建議的最快方法。起初,我認爲Levenstein UDF函數結合mysql表可以完成這項工作。但是使用levenshtein,mysql必須遍歷表中的每一行(噸的話),這將使查詢真的很慢。 現在我最近安裝並開始使用Sphinx(http://sphinxsearch.com/)進行全文搜索,主要是因爲它的性能和與SphinxSE的緊密mysql集成。 所以我問自己,是否可以使用獅

    4熱度

    1回答

    我正在構建一個Android應用程序,它接受一個字符串輸入並返回使用Google API的書籍的排名列表。 我正在尋找一種方法來比較用戶輸入的開放式字符串與列表中的第一項,以查看它們輸入的內容是否可能是一本書。我有關於書籍,標題,作者,說明等的大量信息,所以我可以在任何部分進行搜索。 一個例子是: 'eyre affair fforde', 'fforde eyre affair', 'the

    0熱度

    0回答

    我感興趣的實施無論是在第2.2和第這份文件的2.3提及的SOUNDEX或SPEEDCOP拼寫檢查算法:http://www.dcs.bbk.ac.uk/~roger/spellchecking.html 不幸的是,我擔心這樣做我可能會不小心違反版權或專利法。如果我在2011年4月19日正確閱讀維基百科,SOUNDEX在1918年和1922年獲得專利(1)。 SOUNDEX曾經獲得專利的事實讓我立即

    1熱度

    1回答

    我想查找兩個字符串之間的差異。例如,如果 line1 = "My name is ABC" line2 = "My age is xyz" 然後,我應該能夠得到名稱 - 年齡和ABC - xyz的差異。 我想我可以使用Levenshtein距離,但無法弄清楚。任何幫助是極大的讚賞。