2017-03-07 72 views
0

我已將tesseract ocr轉換圖像文件轉換爲字符串。用於tesseract的Python準確性

現在我有出去放

我如何比較原始PNG文件和輸出文本文件accuarcy是否正確

basewidth = 2700 
img = Image.open('D:OCR\\page1.png') 
wpercent = (basewidth/float(img.size[0])) 
hsize = int((float(img.size[1])*float(wpercent))) 
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS) 
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png'))) 
+0

您需要手動註釋數據。 – erip

+1

「比較原始PNG文件和輸出文本文件的準確性是否正確」是什麼意思?您是否嘗試使用OCR驗證OCR?通常你會手動驗證這種事情。 – Chris

+0

您正在討論這個問題 - 爲了驗證OCR,您需要另一個更準確的OCR - 您沒有這個問題。這意味着你手動驗證它。 – sashoalm

回答

1

如何檢查的東西是準確的?

當然,您將需要一些手動基準/金色數據來比較結果。您將需要您的測試數據或至少需要驗證的參數。

Test cases could be something like: 
1. Whole textual data 
2. No of lines 
3. No of Paragraphs 
4. Position of text 

正方體VS谷歌OCR:

如果你想測試的Tesseract精度與其他OCR那麼你可以嘗試 谷歌OCR,讓比正方體更好的結果(雖然它是 基於它)

正方體培訓:

Tesseract does provide feature of training to improve the accuracy of results.