2016-02-29 61 views
3

我有一些使用Xerox掃描儀數字化的PDF文件。使用Java,我試圖從中提取RGB像素數據,以用於圖像識別應用程序。從頭開始開發這項工作有點超出我的水平,所以我依靠第三方庫進行PDF檢索。從Java掃描的PDF文檔中獲取像素數據

到目前爲止,我已經嘗試了2個不同的庫; PdfBox和PdfClown。我想用convertToImage()方法獲得BufferedImage。使用PdfClown,我嘗試使用Renderer類中的render(page,size)方法獲得BufferedImage。在這兩種情況下,返回的圖像是空白的。所有像素都是白色[(r,g,b) = (255,255,255)]。

我已經能夠從不是來自掃描的其他pdf文檔獲得非空白的BufferedImage,所以我懷疑問題是掃描文檔的格式。

下面是一個示例PFD文件:http://www.filedropper.com/innlevering1

有誰知道如何解決這個問題?或者你可以提供一個不同的方法?

+0

告訴你,我的方法有效並回來告訴我,它不適用於你的情況它是浪費 - 所以你在找什麼?排除圖像故障?也許你的代碼有一些特殊性 – gpasch

+1

請分享樣本PDF。 (並非所有掃描儀都將圖像放入PDF文件中...) – mkl

+0

PDFBox 2.0中的PDPage類似乎沒有包含convertToImage()方法。你有什麼建議可以使用2.0版@TilmanHausherr來做到這一點嗎? – Torben

回答

0

該問題已通過安裝JBIG2插件解決。現在一切正常。非常感謝您的幫助。