從OCR引擎中提取和解析特定的佈局信息

我試圖用PHP解析來自OCR引擎的佈局信息，除非它們沒有提供任何細節。從OCR引擎中提取和解析特定的佈局信息

我同時安裝了Tesseract（與Leptonica）和Cuneiform。據說楔形文字在檢測佈局方面非常出色（即什麼是文本，什麼是圖片等）。輸入是包含文本和圖像的PNG文件（顯然文本是圖像的一部分）。

他們都似乎認爲我想要輸出爲txt或html或hocr ...當我想要的是它認爲是文本的座標和它認爲是一個圖像。

楔形文字有一個「原生」輸出選項是楔形文字2000格式，在記事本++中打開它，我可以看到它被壓縮。我試着用zip和gzip解壓縮它，但都沒有認出它。谷歌沒有關於本地Cuneiform格式的信息。

任何人都有任何想法如何從Tesseract或楔形文字提取佈局信息...或有更好的想法找出包含文本塊和圖片的圖像的佈局？

2011-12-03 Alasdair

看看ABBYY FineReader Engine。它有一個非常聰明的API，提供關於識別文本的最大信息，包括其座標。這不是免費的，但是對於商業軟件來說 - ABBYY OCR技術可以爲您的產品增加一項重要價值。

由於您正在使用PHP中的Web應用程序，因此您可能需要使用ABBYY OCR Engine Web API www.ocrsdk.com。它現在處於內測階段，所以現在可以免費使用。

2011-12-06 08:53:53 Nikolay

ABBYY在佈局上非常出色，但價格昂貴，我試圖儘可能快速和便宜地完成任務。我不確定速度足夠快或成本低到足以實現我的目的。但由於它是一個免費的測試版，我註冊了，我會測試它。謝謝（你的）信息！ – Alasdair

如果您爲ABBYY工作，請在我的截止日期之前通過我的測試版申請，如果它沒有被快速接受，我會解決另一個解決方案。名字：阿拉斯代爾，不是一個普通的名字。謝謝。 – Alasdair

回答