我有一組在我運行OCR應用程序圖像。這個過程產生一個包含字符偏移量的XML文件。然後,我使用Acrobat 9,現在的圖像轉換爲PDF格式,我想對XML文件的信息爲不可見的文本圖層添加到PDF,以實現搜索的PDF。有一種簡單而自由的方式嗎?如何將外部OCR嵌入到現有PDF中?
一些細節:
我不想使用Acrobat的OCR功能;
OCR處理結果,其中包含類似元件XML文件:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
更新:有可能做什麼,我想以不同的方式。假設已經有一組PDF文件由一組圖像生成,並且已經包含OCR文本。有沒有可能來(也許編程)訪問的每個頁面的只是圖像,並處理(例如,將其轉換爲單色),並保存回PDF文件?如果是,那麼OCR文本不會丟失。
[我應該把這個更新到一個單獨的問題嗎?]
您可能會發現[hocr2pdf(http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)有用 – 2014-10-07 08:06:03