2011-10-23 156 views
0

我有一個多頁PDF文件,其中包含我需要解析的信息。信息和圖片僅限於自己的頁面。我需要從PDF中提取文本和圖像。將多頁PDF轉換爲單頁PDF並提取圖像

我正在使用CentOS和PHP。

我嘗試:

我最初嘗試使用pdftotext和ImageMagick的組合。我將PDF轉換成圖像,實際上將頁面分隔成自己的圖像。不幸的是,頁面上的圖像質量非常差。

我的目標:

我需要將PDF拆分成多個PDF文件,每頁之一。然後,我需要以儘可能最好的質量從該頁面提取圖像。

謝謝。

+0

你可以安裝新軟件,比如'pdftk'嗎? – Maerlyn

+0

我有root權限,是的。 – Adam

回答

1

ImageMagick的不適合執行此任務

當你需要從PDF中提取圖像,在他們的原來大小(即最好的,因爲任何其他的分辨率或比原來更小或更大),您必須使用

pdfimages

http://www.foolabs.com/xpdf/download.html

個靜態二進制代碼可以,如果你不能從源代碼編譯)

語法:

pdfimages file.pdf image-root 

圖像而產生將擴展.ppm格式,除非你添加開關-j有JPEG圖像作爲輸出