我必須從PDF文檔的OCR表。我編寫了簡單的Python + opencv腳本來獲取單個單元格。之後出現新問題。文本反鋸齒,質量不高。 tesseract的識別率非常低。我試圖用自適應閾值預處理圖像,但結果並不好。 我試過ABBYY FineReader的試用版,它確實提供了很好的輸出,但我不想使用非自由軟件。 我不知道一些預處理是否會解決問題,或者是否需要編寫和學習其他OCR系統。關於反鋸齒文本的OCR
http://oi60.tinypic.com/ztzsrq.jpg http://i57.tinypic.com/xmpcm9.png
感謝sugesting子像素渲染,但文本似乎是預渲染。我附加的圖像是使用ImageMagic和-density 300提取的。因此,當我在PDF閱讀器中加載頁面並將其放大時,結果是相似的,這並不奇怪。 – Rifti
@ user3318776昨天我在玩這個問題,想出了一個[圖像縮放技術,考慮到亞像素抗鋸齒](http://ruletheweb.co.uk/blog/2014/02/subpixel-aware-圖像縮放/)。這可能會使Tesseract從這些掃描中提取文本更容易。首先,您必須從PDF文件中提取原始嵌入圖像,但這不應該太困難。 –
謝謝。準確度要好得多。我會嘗試重新訓練tesseract與生成的文本並比較結果。 – Rifti