2011-12-03 68 views
3

我試圖用PHP解析來自OCR引擎的佈局信息,除非它們沒有提供任何細節。從OCR引擎中提取和解析特定的佈局信息

我同時安裝了Tesseract(與Leptonica)和Cuneiform。據說楔形文字在檢測佈局方面非常出色(即什麼是文本,什麼是圖片等)。輸入是包含文本和圖像的PNG文件(顯然文本是圖像的一部分)。

他們都似乎認爲我想要輸出爲txt或html或hocr ...當我想要的是它認爲是文本的座標和它認爲是一個圖像。

楔形文字有一個「原生」輸出選項是楔形文字2000格式,在記事本++中打開它,我可以看到它被壓縮。我試着用zip和gzip解壓縮它,但都沒有認出它。谷歌沒有關於本地Cuneiform格式的信息。

任何人都有任何想法如何從Tesseract或楔形文字提取佈局信息...或有更好的想法找出包含文本塊和圖片的圖像的佈局?

回答

3

看看ABBYY FineReader Engine。它有一個非常聰明的API,提供關於識別文本的最大信息,包括其座標。這不是免費的,但是對於商業軟件來說 - ABBYY OCR技術可以爲您的產品增加一項重要價值。

由於您正在使用PHP中的Web應用程序,因此您可能需要使用ABBYY OCR Engine Web API www.ocrsdk.com。它現在處於內測階段,所以現在可以免費使用。

+0

ABBYY在佈局上非常出色,但價格昂貴,我試圖儘可能快速和便宜地完成任務。我不確定速度足夠快或成本低到足以實現我的目的。但由於它是一個免費的測試版,我註冊了,我會測試它。謝謝(你的)信息! – Alasdair

+0

如果您爲ABBYY工作,請在我的截止日期之前通過我的測試版申請,如果它沒有被快速接受,我會解決另一個解決方案。名字:阿拉斯代爾,不是一個普通的名字。謝謝。 – Alasdair