2009-09-28 21 views
6

我有一組在我運行OCR應用程序圖像。這個過程產生一個包含字符偏移量的XML文件。然後,我使用Acrobat 9,現在的圖像轉換爲PDF格式,我想對XML文件的信息爲不可見的文本圖層添加到PDF,以實現搜索的PDF。有一種簡單而自由的方式嗎?如何將外部OCR嵌入到現有PDF中?

一些細節:

  • 我不想使用Acrobat的OCR功能;

  • OCR處理結果,其中包含類似元件XML文件:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新:有可能做什麼,我想以不同的方式。假設已經有一組PDF文件由一組圖像生成,並且已經包含OCR文本。有沒有可能來(也許編程)訪問的每個頁面的只是圖像,並處理(例如,將其轉換爲單色),並保存回PDF文件?如果是,那麼OCR文本不會丟失。

[我應該把這個更新到一個單獨的問題嗎?]

+0

您可能會發現[hocr2pdf(http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)有用 – 2014-10-07 08:06:03

回答

1

有關處理PDF文件不失隱藏層的後續問題:我相信Ghostscript是能夠做到這一點。例如,下面的命令應在PDF轉換爲灰度:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

不錯,它的工作。但是產出並不像我想要的那樣乾淨。如果ImageMagick的可以在PDF轉換不失文字層,我想的東西,如處理每個頁面: 轉換\\(-white閾值50%\\)-monochrome ... 也許有告訴的方式IM如何使用GS,就像DaveParillo說的那樣。我稍後會檢查。 – kepler 2009-10-06 13:03:33

-1

如果你想要做的就是將現有的PDF灰度圖,嘗試Imagemagick

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

我不認爲這會改變你的PDF中的任何其他屬性。

+0

這不似乎保留PDF中的隱藏文字層。 (試圖與ImageMagick的6.4.5。) – 2009-10-05 22:00:18

+0

奇怪,因爲ImageMagick的使用ghostscript的做它的形象轉換...... – DaveParillo 2009-10-06 01:18:12

+0

我也試了一下,同時也失去了文字層。我也使用ImageMagick 6.4.5。 – kepler 2009-10-06 12:53:40

相關問題