2017-12-27 794 views
0

我試圖在Ubuntu上使用pytesseract和tesseract命令行將掃描頁面轉換爲文本。結果顯着不同(pytesseract表現比tesseract命令行更好),我無法理解爲什麼。我查看了參數的默認值,並嘗試在tesseract命令行中更改一些參數值(如psm),但我無法獲得與pytesseract相同的結果。由於pytesseract中缺少適當的文檔,我無法弄清楚使用了什麼參數默認值。pytesseract結果與tesseract命令行結果不同

這裏是我的pytesseract代碼 print(pytesseract.image_to_string(Image.open('test.tiff'))

回答

0

望着pytesseract的源代碼,看起來像總是被轉換爲.bmp文件。 使用Tesseract在命令行中處理.bmp文件和psm爲6的結果與pytesseract結果相同。 另外,tesseract只能處理未壓縮的bmp文件。因此,如果使用ImageMagick將.pdf轉換爲.bmp,則以下操作將起作用

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt 
相關問題