如何獲得最接近的匹配正則表達式

我有一個代碼使用正則表達式從文本（format = mm-dd-yyyy）中提取日期。如何獲得最接近的匹配正則表達式

注意：該文本是使用OCR在票據圖像上獲得的。所以，預期的日期格式是mm-dd-yyyy，但它可以是使用OCR獲取的任何隨機文本。

import re 
date_reg_exp = re.compile('\d{2}[-/.]\d{2}[-/.]\d{4}') #works for mm-dd-yyyy 
matches_list=date_reg_exp.findall(test_str) 
for match in matches_list2: 
    print match

如果我有一個字符串'This is a text extracted from OCR 09-11-2015'上面的代碼工作和結果的日期作爲輸出'09-11-2015'。但是，如果我有一個字符串'This is o text extractud fram OCR 09-11-201 5'或'This is o text xtractud fram OCR 09-11-201'或'This is o text xtractud fram OCR O9-11-201'它會失敗。我如何爲這樣的場景編寫代碼，在這個場景中它也挑選最接近的匹配項。

來源

2015-12-04 Kartheek Palepu

它取決於「最近」的定義。你的例子可以通過在匹配之前刪除空格來處理。 – eph

好的。讓我更具體一些。如果我有一個字符串''字符串是09-11-201'，這是正則表達式最接近的匹配。這應該被打印爲輸出。輸出 - '09-11-201' –

所有的月份和日期都是正確的格式，只是年份已經搞亂了嗎？ –

試戴

O?\d{1,2}[-/\.]\d{2}[-/\.][\d\s]{2,}

由於如下─

>>>import re 
>>>s = """If I have a string 'This is a text extracted from OCR 09-11-2015' the above code works and results the Date as output '09-11-2015'. But, if I have a string 'This is o text extractud fram OCR 09-11-201 5' or 'This is o text xtractud fram OCR 09-11-201' or 'This is o text xtractud fram OCR O9-11-201' it fails. How to I write a code for such scenario where it also picks up the nearest match.""" 
>>>re.findall(r'O?\d{1,2}[-/\.]\d{2}[-/\.][\d\s]{2,}',s) 
>>>['09-11-2015', '09-11-2015', '09-11-201 5', '09-11-201', 'O9-11-201']

然後嘗試所有O與0取代。

>>>[i.replace('O','0') for i in ['09-11-2015', '09-11-2015', '09-11-201 5', '09-11-201', 'O9-11-201']] 
>>>['09-11-2015', '09-11-2015', '09-11-201 5', '09-11-201', '09-11-201']

查看即時DEMO

或 - 如果日期分隔符在日期如/,.,-然後下面應提取日期 - 它認爲所有l33t字符。像$爲5

\b[\w\$\s]{2}\s*[\.-/-]\s*[\w\$]{2,}\s*[\.-/-]\s*[\w\$]{2,}

查看即時DEMO

注：你不會得到100％準確的結果，因爲你的數據是一場災難，而是使用好的ocr引擎，如Abbyy，這可以提高準確性。

編輯

如果你想實現某種fuzzymatch的/ Levenshtein Distance然後使用FuzzyWuzzy模塊。

來源

2015-12-04 10:12:06 SIslam

這適用於額外的空間。但是如果缺少像'09 -11-201'這樣的數字，它就會失敗。我需要一個通用的'正則表達式'或某種算法來幫助挑選這樣的場景。 –

你可以發佈所有可能的日期格式，而我可以使正則表達式一般化。 – SIslam

現在我只有一種格式的日期'mm-dd-yyyy'。我實際上正在從事OCR（從賬單提取日期）。所以我需要這個場景。聽說Levenshtein，但我並沒有意識到它在這種情況下的實現，因爲「日期」不是英文單詞。 –

這不是標題要求 但是如您所說的Levenshtein距離可能對您的情況有用。

from dateutil.parser import parse 

s = 'This is o text xtractud fram OCR O9-11-201' 

parse(s, fuzzy=True) 

datetime.datetime(201, 9, 11, 0, 0)

Dateutil提供了一個模糊的日期時間分析器。

這適用於'09-11-201'但不會對'09-11-201 5'

來源

2015-12-04 10:33:31 Shivendra

它會適用於「O9-11-2015」或「09 -11-201S」嗎？因爲OCR引擎可能會對'0'和'O'以及'5'和'S'產生混淆。 –

在上面的例子中，我錯誤地使用了'O'而不是'0'。它在這裏工作，因爲字母表不在日期之間，而是簡單地停止。因此，它不適用於字母表。如果您無法找到您應該找到的日期，則可以在更換所有S和O後編寫更多代碼來提取日期。 – Shivendra

工作有幾種方法你可以實現正則表達式的近似匹配。最「理論上直接」的方法很可能會要求您對DFA執行edit-distance類似dynamic programming的計算。

這是一個相當棘手的編碼算法，它沒有太多的實現。最有名的是Agrep（從技術上說，agrep工具實現了幾種算法，但其中最爲人熟知的是模糊正則表達式匹配）。

通過此關鍵字使用Google搜索簡短的this library，它似乎有Python綁定，可能正是你需要的。

來源

2015-12-04 10:42:16

如果您對圖書館很熟悉，請通過提供示例幫助我理解。 –

已經在那裏給出的例子有什麼問題？ https://github.com/laurikari/tre/blob/master/python/example.py –

如何獲得最接近的匹配正則表達式

回答

相關問題