2012-11-05 23 views
2

我正在用Java編寫OCR程序(使用Tesseract從標籤生成文本),我希望它能識別輸出中的常見錯誤,例如VV而不是W以及存儲在數據庫中的NIR而不是MR。所以,例如,如果它有一個像「VVEIN,MIR Adam」的字符串,它應該改爲「WEIN,MR Adam」。用Java中的數據庫替換字符串的部分

什麼是檢查字符串是否匹配任何常見錯誤文本的最有效方法?我現在唯一能想到的方法是通過一系列正則表達式爲每個已知錯誤傳遞字符串,但我希望有一種更有效的方法。謝謝:)

回答

0

String傳遞給多個正則表達式將在每次替換子字符串時創建一個新的String,因爲Java中的字符串是不可變的。改爲使用StringBuilder