2009-05-20 39 views
6

有誰知道開源的Java庫會對pdf文件的文本部分進行可靠的區分嗎?Java Pdf差異庫

理想情況下,我想要一些會產生補丁形式的差異。

+0

也許你可以澄清你的期望。有很多方法可以創建兩個完全相同的不同PDF。另請注意,PDF不必具有可搜索的文本。 – 2009-05-20 10:37:24

回答

0

如果PDF僅在文本中有所不同,也可以對頁面進行柵格化,然後查看差異 - 我們將其用於PDF代碼上的迴歸測試輸出。

+0

是否有任何用於柵格化PDF文件的庫或代碼?同樣在光柵化上,MD5/SHA1散列的結果總是相同的?或者你將不得不使用像Sikuli等模糊比較工具來進行區分? – David 2013-01-05 01:25:58

+0

剛剛注意到,Apache PDFBox可以通過頁面將PDF柵格化爲圖像。 – David 2013-01-17 05:27:06

0

您可以看看xdiffweb.com。這是一個基於apache pdfbox的純java開源項目。