pytesseract結果與tesseract命令行結果不同

我試圖在Ubuntu上使用pytesseract和tesseract命令行將掃描頁面轉換爲文本。結果顯着不同（pytesseract表現比tesseract命令行更好），我無法理解爲什麼。我查看了參數的默認值，並嘗試在tesseract命令行中更改一些參數值（如psm），但我無法獲得與pytesseract相同的結果。由於pytesseract中缺少適當的文檔，我無法弄清楚使用了什麼參數默認值。pytesseract結果與tesseract命令行結果不同

這裏是我的pytesseract代碼 print(pytesseract.image_to_string(Image.open('test.tiff'))

來源

2017-12-27 randomSampling

望着pytesseract的源代碼，看起來像總是被轉換爲.bmp文件。使用Tesseract在命令行中處理.bmp文件和psm爲6的結果與pytesseract結果相同。另外，tesseract只能處理未壓縮的bmp文件。因此，如果使用ImageMagick將.pdf轉換爲.bmp，則以下操作將起作用

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt

來源

2017-12-31 06:46:02 randomSampling

pytesseract結果與tesseract命令行結果不同

回答

相關問題