3
我有一些使用Xerox掃描儀數字化的PDF文件。使用Java,我試圖從中提取RGB像素數據,以用於圖像識別應用程序。從頭開始開發這項工作有點超出我的水平,所以我依靠第三方庫進行PDF檢索。從Java掃描的PDF文檔中獲取像素數據
到目前爲止,我已經嘗試了2個不同的庫; PdfBox和PdfClown。我想用convertToImage()
方法獲得BufferedImage
。使用PdfClown,我嘗試使用Renderer
類中的render(page,size)
方法獲得BufferedImage
。在這兩種情況下,返回的圖像是空白的。所有像素都是白色[(r,g,b) = (255,255,255)
]。
我已經能夠從不是來自掃描的其他pdf文檔獲得非空白的BufferedImage,所以我懷疑問題是掃描文檔的格式。
下面是一個示例PFD文件:http://www.filedropper.com/innlevering1
有誰知道如何解決這個問題?或者你可以提供一個不同的方法?
告訴你,我的方法有效並回來告訴我,它不適用於你的情況它是浪費 - 所以你在找什麼?排除圖像故障?也許你的代碼有一些特殊性 – gpasch
請分享樣本PDF。 (並非所有掃描儀都將圖像放入PDF文件中...) – mkl
PDFBox 2.0中的PDPage類似乎沒有包含convertToImage()方法。你有什麼建議可以使用2.0版@TilmanHausherr來做到這一點嗎? – Torben