如何使用Java（不使用pdfbox）從pdf中提取圖像

我一直在研究如何從大（> 300MB）PDF文件中提取圖像。我正在使用pdfbox，但由於某些原因我無法弄清楚，有些頁面沒有正確提取。如何使用Java（不使用pdfbox）從pdf中提取圖像

我使用PDFTo PDF圖像類作爲我的代碼的基礎。

所以，你知道另一個圖書館，可以幫助我做到這一點嗎？我知道可能會使用iText，但我讀到它不能用於商業產品。

我已經安裝了軟件包xpdf和xpdf-utils，並且名爲pdfimages的實用程序工作正常。但是我需要從Java解決這個問題，它應該是可移植的。

您可以將xpdf-utils移植到Java。 – erjiang 2010-11-30 16:15:06

除非您購買商業許可，否則iText屬於GPL。 – 2010-11-30 16:16:41

我會嘗試使用版本<5，我認爲對版本> = 5，許可條款的更改已更改。 – 2010-11-30 16:56:17

我想你在談論兩種不同的東西：從PDF中提取圖像，並將PDF頁面轉換爲圖像。 PDFToImage將爲每個頁面輸出圖像，而pdfimages提取所有嵌入的圖像（例如，文本文檔具有0個圖像）。

看看org.apache.pdfbox.ExtractImages看看它是否做你想要的。

2010-11-30 16:23:24 erjiang

300 Mb PDF難以處理的最可能原因是您的內存不足。如果它適用於較小的PDF，我會仔細看看它爲什麼失敗。

2010-11-30 16:17:43

你有沒有試過icepdf或JPedal（都是純java）？

2010-11-30 16:50:12

回答