我們正在使用ImageMagic和tesseract嘗試讀取文檔中的信息,但我們沒有找到正確的配置和兩個軟件的組合來優化原始掃描的tif文檔,並將tesseract應用於它獲取信息。配置和優化ImageMagic和Tesseract
首先,我們使用掃描儀掃描文檔,配置爲300 dpi,tif文檔生成的用戶大小爲170KB。
然後,我們嘗試在將圖像傳遞到tesseract 3.0.3之前使用imagemagic運行圖像的預處理,以生成帶有文本文檔的PDF。
我們使用的第一個命令,這是一個:
convert page.tiff -respect-parenthesis -compress LZW -density 300
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1%
-deskew 40 +repage temp.tiff
然後我們將其應用到正方體這樣:
tesseract -l spa temp.tiff temp pdf
這將產生一個非常沉重的PDF https://drive.google.com/open?id=0B3CPIZ_TyzFXd2UtWldfajR4SVU但正方體不能如果標題的背景較暗,則讀取單元格中的數據或表格標題下方的表格中的數據。
然後,我們曾嘗試使用此命令轉換:
convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff
這會產生一個很輕的PDF文檔https://drive.google.com/open?id=0B3CPIZ_TyzFXWFEwT3JucDBTVVU,但我們仍然有同樣的問題。
是否有人能指出我們應該採取什麼樣的方式來優化圖像以獲取像例子中那樣的信息?或準則來優化圖像以改善tesseract準確性?
類型的,我們正在努力的過程文檔與不同類型的字體類型很不同和尺寸