我試圖用PHP解析來自OCR引擎的佈局信息,除非它們沒有提供任何細節。從OCR引擎中提取和解析特定的佈局信息
我同時安裝了Tesseract(與Leptonica)和Cuneiform。據說楔形文字在檢測佈局方面非常出色(即什麼是文本,什麼是圖片等)。輸入是包含文本和圖像的PNG文件(顯然文本是圖像的一部分)。
他們都似乎認爲我想要輸出爲txt或html或hocr ...當我想要的是它認爲是文本的座標和它認爲是一個圖像。
楔形文字有一個「原生」輸出選項是楔形文字2000格式,在記事本++中打開它,我可以看到它被壓縮。我試着用zip和gzip解壓縮它,但都沒有認出它。谷歌沒有關於本地Cuneiform格式的信息。
任何人都有任何想法如何從Tesseract或楔形文字提取佈局信息...或有更好的想法找出包含文本塊和圖片的圖像的佈局?
ABBYY在佈局上非常出色,但價格昂貴,我試圖儘可能快速和便宜地完成任務。我不確定速度足夠快或成本低到足以實現我的目的。但由於它是一個免費的測試版,我註冊了,我會測試它。謝謝(你的)信息! – Alasdair
如果您爲ABBYY工作,請在我的截止日期之前通過我的測試版申請,如果它沒有被快速接受,我會解決另一個解決方案。名字:阿拉斯代爾,不是一個普通的名字。謝謝。 – Alasdair