2011-06-16 22 views
0

我想有一個應用程序,用戶在TIFF格式中查看文檔的圖像。如何疊加TIFF圖像上的文本,創建類似可搜索的PDF文件?

如果單詞「foo」和「bar」出現在頁面上。並且選擇僅包含「foo」的圖像,然後我只想選擇單詞「foo」。

是否有一種格式可以存儲文本的位置和圖像的文本?

+0

PDF有什麼問題?你可以在PDF中做到這一點。任何應用了OCR的PDF文件都是這樣的。 – yms 2011-06-16 17:44:03

+0

我需要建立一個文件數據庫。 – SLY 2011-06-16 20:58:50

回答

2

由於您瞭解可搜索的PDF,並且它完美地實現了您所建議的內容,所以我認爲您無法使用它的原因是有原因的。如果不是,您應該使用PDF - 格式支持混合內容並覆蓋它們。您的用戶可能擁有的所有觀衆都會理解如何處理圖片下方的文字。

TIFF格式不直接支持這種格式,但如果您製作查看器並且只需要在那裏工作,那麼您可以嘗試將文本和位置存儲在自定義標籤中。

然後,您的查看器需要讀取該標籤,解釋鼠標位置,並查找圖像上正在選擇的文本。沒有其他觀衆會支持你的文字標籤,但他們會顯示TIFF。

對於這兩種機制中的任何一種,您都需要使用OCR和將數據編碼爲PDF或自定義TIFF標記的方法。對於開源OCR,請查看Google的Tesseract。

聲明:我在Atalasoft工作。我們的圖像SDK DotImage具有可用於搜索PDF的OCR附件,並可添加和編輯TIFF標籤。

+0

http://en.wikipedia.org/wiki/HOCR也是一個不錯的選擇。 – SLY 2011-06-17 22:12:57