我們有一個C#.Net應用程序,它使用Tesseract對.tiff文件進行光學字符識別(OCR)。下面是一個示例: Tesseract OCR水平讀取而非垂直讀取C#
然後我們將數據輸出到文本文件。但是,Tesseract正在以垂直方式讀取數據。在我的例子形象,它讀取TIFF爲兩列數據和數據從正方體輸出這樣的數據:
TYPE: 日期: 地址: 市: 州: 業主: 所有者類型: 面積: 按揭: 2017年4月6日 100主街 一些城市 一些國家 李四 主要 10.25 是
我們需要的是對的Tesseract水平讀取TIFF文件,並具有輸出是這樣的:
TYPE:12345 日期:2017年4月6日 地址:100主街 城市:廣州市部分城區 狀態:一些國家 業主:李四 所有者類型:初級 面積:10.25 抵押貸款:是
我們試圖爲正方體的各種頁面分割方法的選擇,但他們都產生相同的結果。
有沒有人遇到過這個問題?任何人有任何想法?