5
我正在使用tesseract進行OCR,並且已經注意到有時會出現分割錯誤,並且「明顯」屬於一起的字符被分割爲分隔字符串。如何使用邊界矩形更正OCR分割錯誤?
根據在一行文本中找到的字符及其邊界框的列表以及首要的OCR結果提示哪些字符屬於一個字,哪些算法可用於糾正分割錯誤或驗證結果?
因此,這此提供的數據:
List<Word> words;
for(Word word : words){
for(Char c : word.getChars()){
char ch = c.getValue();
Rectangle rect = c.getRect();
}
}