Tesseract OCR水平讀取而非垂直讀取C＃

我們有一個C＃.Net應用程序，它使用Tesseract對.tiff文件進行光學字符識別（OCR）。下面是一個示例： Tesseract OCR水平讀取而非垂直讀取C＃

然後我們將數據輸出到文本文件。但是，Tesseract正在以垂直方式讀取數據。在我的例子形象，它讀取TIFF爲兩列數據和數據從正方體輸出這樣的數據：

TYPE：日期：地址：市：州：業主：所有者類型：面積：按揭： 2017年4月6日 100主街一些城市一些國家李四主要 10.25 是

我們需要的是對的Tesseract水平讀取TIFF文件，並具有輸出是這樣的：

TYPE：12345 日期：2017年4月6日地址：100主街城市：廣州市部分城區狀態：一些國家業主：李四所有者類型：初級面積：10.25 抵押貸款：是

我們試圖爲正方體的各種頁面分割方法的選擇，但他們都產生相同的結果。

有沒有人遇到過這個問題？任何人有任何想法？

來源

2017-04-06 MikeTWebb

我找到了解決方案。 Tesseract有一組配置文件。其中幾個配置文件是設置tessedit_pageseg_mode。該設置在所有配置文件中都設置爲1。 1=Automatic page segmentation with OSD.OSD=Orientation and script detection.

底線，這些配置文件設置覆蓋了我們的命令行參數。一旦我刪除從配置文件中的tessedit_pageseg_mode參數，我們的

命令行參數

-psm 6工作併產生所需格式的輸出數據。

psm=Page Segmentation Mode. 6=Assume a single uniform block of text

-psm 4還曾

psm=Page Segmentation Mode. 4=Assume a single column of text of variable sizes

來源

2017-04-06 20:28:05 MikeTWebb

Tesseract OCR水平讀取而非垂直讀取C＃

回答

相關問題