2010-11-30 109 views
6

我一直在研究如何從大(> 300MB)PDF文件中提取圖像。我正在使用pdfbox,但由於某些原因我無法弄清楚,有些頁面沒有正確提取。如何使用Java(不使用pdfbox)從pdf中提取圖像

我使用PDFTo PDF圖像類作爲我的代碼的基礎。

所以,你知道另一個圖書館,可以幫助我做到這一點嗎?我知道可能會使用iText,但我讀到它不能用於商業產品。

我已經安裝了軟件包xpdf和xpdf-utils,並且名爲pdfimages的實用程序工作正常。但是我需要從Java解決這個問題,它應該是可移植的。

+0

您可以將xpdf-utils移植到Java。 – erjiang 2010-11-30 16:15:06

+1

除非您購買商業許可,否則iText屬於GPL。 – 2010-11-30 16:16:41

+0

我會嘗試使用版本<5,我認爲對版本> = 5,許可條款的更改已更改。 – 2010-11-30 16:56:17

回答

5

我想你在談論兩種不同的東西:從PDF中提取圖像,並將PDF頁面轉換爲圖像。 PDFToImage將爲每個頁面輸出圖像,而pdfimages提取所有嵌入的圖像(例如,文本文檔具有0個圖像)。

看看org.apache.pdfbox.ExtractImages看看它是否做你想要的。

0

300 Mb PDF難以處理的最可能原因是您的內存不足。如果它適用於較小的PDF,我會仔細看看它爲什麼失敗。