2017-04-06 56 views
0

我們有一個C#.Net應用程序,它使用Tesseract對.tiff文件進行光學字符識別(OCR)。下面是一個示例: Example tiff fiel that Tesseract readsTesseract OCR水平讀取而非垂直讀取C#

然後我們將數據輸出到文本文件。但是,Tesseract正在以垂直方式讀取數據。在我的例子形象,它讀取TIFF爲兩列數據和數據從正方體輸出這樣的數據:

TYPE: 日期: 地址: 市: 州: 業主: 所有者類型: 面積: 按揭: 2017年4月6日 100主街 一些城市 一些國家 李四 主要 10.25 是

我們需要的是對的Tesseract水平讀取TIFF文件,並具有輸出是這樣的:

TYPE:12345 日期:2017年4月6日 地址:100主街 城市:廣州市部分城區 狀態:一些國家 業主:李四 所有者類型:初級 面積:10.25 抵押貸款:是

我們試圖爲正方體的各種頁面分割方法的選擇,但他們都產生相同的結果。

有沒有人遇到過這個問題?任何人有任何想法?

回答

0

我找到了解決方案。 Tesseract有一組配置文件。其中幾個配置文件是設置tessedit_pageseg_mode。該設置在所有配置文件中都設置爲1。 1=Automatic page segmentation with OSD.OSD=Orientation and script detection.

底線,這些配置文件設置覆蓋了我們的命令行參數。一旦我刪除從配置文件中的tessedit_pageseg_mode參數,我們的

命令行參數

-psm 6工作併產生所需格式的輸出數據。

psm=Page Segmentation Mode. 6=Assume a single uniform block of text

-psm 4還曾

psm=Page Segmentation Mode. 4=Assume a single column of text of variable sizes