2013-12-19 29 views
0

我正在使用Tesseract OCR獲取PDF文件中的獨佔數字字符串。 該PDF包含:66600O3377.pdf 但Tesseract承認:66600Q3377.pdfTesseract將0標識爲Q

輸入是一個TIFF文件,質量足夠好(請參閱截圖)。

有沒有提高Tesseract準確度的方法?我總是可以將Q值更改爲0,但我擔心會出現更多意想不到的錯誤。

enter image description here

回答

0

這是Tesseract FAQ

運行一個命令的Tesseract像這樣在輸入圖像只允許數字:

tesseract imagename outputbase digits 
+0

我的完整的命令應該是:正方體temp.tiff輸出數字-psm 4>/dev/null 2>&1? –

+0

**任何配置文件(例如'數字')之前必須出現** -l lang'和-psm N'選項**。換句話說,命令行應該是:'tesseract temp.tiff output -psm 4 digits>/dev/null 2>&1' – mvp