如何將外部OCR嵌入到現有PDF中？

我有一組在我運行OCR應用程序圖像。這個過程產生一個包含字符偏移量的XML文件。然後，我使用Acrobat 9，現在的圖像轉換爲PDF格式，我想對XML文件的信息爲不可見的文本圖層添加到PDF，以實現搜索的PDF。有一種簡單而自由的方式嗎？如何將外部OCR嵌入到現有PDF中？

一些細節：

我不想使用Acrobat的OCR功能;
OCR處理結果，其中包含類似元件XML文件：

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新：有可能做什麼，我想以不同的方式。假設已經有一組PDF文件由一組圖像生成，並且已經包含OCR文本。有沒有可能來（也許編程）訪問的每個頁面的只是圖像，並處理（例如，將其轉換爲單色），並保存回PDF文件？如果是，那麼OCR文本不會丟失。

[我應該把這個更新到一個單獨的問題嗎？]

來源

2009-09-28 kepler

您可能會發現[hocr2pdf（http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/）有用 – 2014-10-07 08:06:03

有關處理PDF文件不失隱藏層的後續問題：我相信Ghostscript是能夠做到這一點。例如，下面的命令應在PDF轉換爲灰度：

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

來源

2009-10-05 22:28:48

不錯，它的工作。但是產出並不像我想要的那樣乾淨。如果ImageMagick的可以在PDF轉換不失文字層，我想的東西，如處理每個頁面：轉換\\（-white閾值50％\\）-monochrome ... 也許有告訴的方式IM如何使用GS，就像DaveParillo說的那樣。我稍後會檢查。 – kepler 2009-10-06 13:03:33

-1

如果你想要做的就是將現有的PDF灰度圖，嘗試Imagemagick：

convert foo.pdf -colorspace Gray -compress zip gray.pdf

我不認爲這會改變你的PDF中的任何其他屬性。

來源

2009-10-01 16:15:14 DaveParillo

這不似乎保留PDF中的隱藏文字層。（試圖與ImageMagick的6.4.5。） – 2009-10-05 22:00:18

奇怪，因爲ImageMagick的使用ghostscript的做它的形象轉換...... – DaveParillo 2009-10-06 01:18:12

我也試了一下，同時也失去了文字層。我也使用ImageMagick 6.4.5。 – kepler 2009-10-06 12:53:40

如何將外部OCR嵌入到現有PDF中？

回答

相關問題