我有這個大型打印文件,其中包含5544頁的pdf大小約爲36mb。該文件由MS Word 2010創建,每個字母/文檔僅包含文本和徽標。 我將它分成5544個文件,並根據關鍵字合併回2770個字母。每個字母大約。 140-145kb。 當我把所有的字母合併成一個新的pdf打印文件,仍然包含5544頁時,文件的大小增長到396mb。 所有文本提取,分割和合並都是通過調用PHP中的Apache PDF
嘗試使用Apache PDFBox 2.0.2版替換文本(使用下面的代碼)會生成一個輸出,其中很少的字符不會顯示,大多數情況下是大寫Case字符。例如,用「ABCDEFGHIJKLMNOPQRSTUVWXYZ」替換「pdf」中的輸出爲「ABCDEF HIJKLM OP RST W Y」。這是一些錯誤?或者我們有一些解決方法來處理這些字符。 public static PDDocument repl