從Java掃描的PDF文檔中獲取像素數據

我有一些使用Xerox掃描儀數字化的PDF文件。使用Java，我試圖從中提取RGB像素數據，以用於圖像識別應用程序。從頭開始開發這項工作有點超出我的水平，所以我依靠第三方庫進行PDF檢索。從Java掃描的PDF文檔中獲取像素數據

到目前爲止，我已經嘗試了2個不同的庫; PdfBox和PdfClown。我想用convertToImage()方法獲得BufferedImage。使用PdfClown，我嘗試使用Renderer類中的render(page,size)方法獲得BufferedImage。在這兩種情況下，返回的圖像是空白的。所有像素都是白色[(r,g,b) = (255,255,255)]。

我已經能夠從不是來自掃描的其他pdf文檔獲得非空白的BufferedImage，所以我懷疑問題是掃描文檔的格式。

下面是一個示例PFD文件：http://www.filedropper.com/innlevering1

有誰知道如何解決這個問題？或者你可以提供一個不同的方法？

來源

2016-02-29 Torben

告訴你，我的方法有效並回來告訴我，它不適用於你的情況它是浪費 - 所以你在找什麼？排除圖像故障？也許你的代碼有一些特殊性 – gpasch

請分享樣本PDF。（並非所有掃描儀都將圖像放入PDF文件中...） – mkl

PDFBox 2.0中的PDPage類似乎沒有包含convertToImage（）方法。你有什麼建議可以使用2.0版@TilmanHausherr來做到這一點嗎？ – Torben

該問題已通過安裝JBIG2插件解決。現在一切正常。非常感謝您的幫助。

來源

2016-03-05 21:19:06 Torben

從Java掃描的PDF文檔中獲取像素數據

回答

相關問題