我試圖使用Levenshtein Distance的幫助來在OCR頁面上查找模糊關鍵字(靜態文本)。
要做到這一點,我想給出一個允許的錯誤百分比(比如15%)。模糊匹配字符串中的多個單詞
string Keyword = "past due electric service";
由於關鍵字是25個字符長,我想允許4個錯誤(25 * 0.15四捨五入)
我需要能夠比較它...
string Entire_OCR_Page = "previous bill amount payment received on 12/26/13 thank
you! current electric service total balances unpaid 7
days after the total due date are subject to a late
charge of 7.5% of the amount due or $2.00, whichever/5
greater. "
這是我怎麼做,現在......
int LevenshteinDistance = LevenshteinAlgorithm(Keyword, Entire_OCR_Page); // = 202
int NumberOfErrorsAllowed = 4;
int Allowance = (Entire_OCR_Page.Length() - Keyword.Length()) + NumberOfErrorsAllowed; // = 205
顯然,Keyword
沒有在OCR_Text
找到(它不應該)。但是,使用Levenshtein的距離,錯誤的數量少於15%的餘地(因此我的邏輯表示它被發現)。
有誰知道更好的方法來做到這一點?
發佈了一個更好的問題。 http://goo.gl/Rb6ejp – Milne