2015-06-08 57 views
2

我創建了單元測試算法來搜索txt文件中的正則表達式模式。它卡住了一些文件這個表達式的分析過程:算法搜索正則表達式模式卡住了一些txt

(nr|numer|[fj]ak[^\r\n]{1,3}ura)\s((?!kas|par|rej|kl\.|kont|te[lł]|klien|zlece|trans|zam|dz|pkwiu|wydr))?(?!rachunk|lic)(.*\n){5}` 

測試:

def testNIPMass(self): 
    #mypath="E:\\Skrypt\\txts\\1" 
    mypath="C:\\Users\\lataman\\Documents\\OCR\\PyVer\\skrypt\\txts\\1" 
    container=schemeContainer.createObject("PL") 
    for f in listdir(mypath): 
     file = join(mypath,f) 
     if isfile(file): 
      tArray=utilities.fopen(file).split('\n') 
      NIPclient=container.seekPattern("InvoiceNumber", tArray, returnPatterns=True) 
      print("File: "+f+"\nInvoiceNumber: "+str(NIPclient)) 

回答

1

ł的正則表達式。您必須更改Unicode編碼或將其刪除。 如果這不起作用,請檢查這些「卡住」的文件,如果它們包含一些奇怪的字符。

相關問題