用於tesseract的Python準確性

我已將tesseract ocr轉換圖像文件轉換爲字符串。用於tesseract的Python準確性

現在我有出去放

我如何比較原始PNG文件和輸出文本文件accuarcy是否正確

basewidth = 2700 
img = Image.open('D:OCR\\page1.png') 
wpercent = (basewidth/float(img.size[0])) 
hsize = int((float(img.size[1])*float(wpercent))) 
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS) 
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png')))

來源

2017-03-07 Venkatesan

您需要手動註釋數據。 – erip

「比較原始PNG文件和輸出文本文件的準確性是否正確」是什麼意思？您是否嘗試使用OCR驗證OCR？通常你會手動驗證這種事情。 – Chris

您正在討論這個問題 - 爲了驗證OCR，您需要另一個更準確的OCR - 您沒有這個問題。這意味着你手動驗證它。 – sashoalm

如何檢查的東西是準確的？

當然，您將需要一些手動基準/金色數據來比較結果。您將需要您的測試數據或至少需要驗證的參數。

Test cases could be something like: 
1. Whole textual data 
2. No of lines 
3. No of Paragraphs 
4. Position of text

正方體VS谷歌OCR：

如果你想測試的Tesseract精度與其他OCR那麼你可以嘗試谷歌OCR，讓比正方體更好的結果（雖然它是基於它）

正方體培訓：

Tesseract does provide feature of training to improve the accuracy of results.

來源

2017-03-07 13:07:10

用於tesseract的Python準確性

回答

相關問題