PdfBox：PDF/A-1A到PDF/A-3A

我有以下問題：我想將PDF/A-1A文檔轉換爲PDF/A-3A。原始文件由Arobat Reader Pro驗證，所以我可以推測它是符合PDF/A-1A的。PdfBox：PDF/A-1A到PDF/A-3A

我嘗試將PDF元數據轉換與下面的代碼：

private PDDocumentCatalog makeA3compliant(PDDocument doc) throws IOException, TransformerException { 
PDDocumentCatalog cat = doc.getDocumentCatalog(); 
PDMetadata metadata = new PDMetadata(doc); 
cat.setMetadata(metadata); 

XMPMetadata xmp = new XMPMetadata(); 
XMPSchemaPDFAId pdfaid = new XMPSchemaPDFAId(xmp); 
xmp.addSchema(pdfaid); 

XMPSchemaDublinCore dc = xmp.addDublinCoreSchema(); 
String creator = "TestCr"; 
String producer = "testPr"; 
dc.addCreator(creator); 
dc.setAbout(""); 

XMPSchemaBasic xsb = xmp.addBasicSchema(); 
xsb.setAbout(""); 
xsb.setCreatorTool(creator); 
xsb.setCreateDate(GregorianCalendar.getInstance()); 

PDDocumentInformation pdi = new PDDocumentInformation(); 
pdi.setProducer(producer); 
pdi.setAuthor(creator); 
doc.setDocumentInformation(pdi); 

XMPSchemaPDF pdf = xmp.addPDFSchema(); 
pdf.setProducer(producer); 
pdf.setAbout(""); 

PDMarkInfo markinfo = new PDMarkInfo(); 
markinfo.setMarked(true); 
doc.getDocumentCatalog().setMarkInfo(markinfo); 

pdfaid.setPart(3); 
pdfaid.setConformance("A"); 
pdfaid.setAbout(""); 

metadata.importXMPMetadata(xmp); 

return cat;

}

如果我嘗試再次驗證與Acrobat新的文件，我得到驗證錯誤：

CIDset in subset font is incomplete (font contains glyphs that are not listed)

如果我嘗試使用此在線驗證程序驗證文件（http://www.pdf-tools.com/pdf/validate-pdfa-online.aspx）它是有效的PDF/A-3A ....

我錯過了什麼？

沒人能幫忙嗎？

編輯：這裏是PDF file

來源

2015-07-03 Paundl

你錯過的PDF文件。 –

如果我們沒有PDF文件來檢查，就不可能多說你的問題... –

我添加了一個PDF文件的鏈接 – Paundl

這個工作對我們是完全PDF/A-3關於CIDset問題兼容：

private void removeCidSet(PDDocumentCatalog catalog) { 

    COSName cidSet = COSName.getPDFName("CIDSet"); 

    // iterate over all pdf pages 
    for (Object object : catalog.getAllPages()) { 
    if (object instanceof PDPage) { 

     PDPage page = (PDPage) object; 
     Map<String, PDFont> fonts = page.getResources().getFonts(); 
     Iterator<String> iterator = fonts.keySet().iterator(); 

     // iterate over all fonts 
     while (iterator.hasNext()) { 
     PDFont pdFont = fonts.get(iterator.next()); 

     if (pdFont instanceof PDType0Font) { 
      PDType0Font typedFont = (PDType0Font) pdFont; 

      if (typedFont.getDescendantFont() instanceof PDCIDFontType2Font) { 
      PDCIDFontType2Font f = (PDCIDFontType2Font) typedFont.getDescendantFont(); 
      PDFontDescriptor fontDescriptor = f.getFontDescriptor(); 

      if (fontDescriptor instanceof PDFontDescriptorDictionary) { 
       PDFontDescriptorDictionary fontDict = (PDFontDescriptorDictionary) fontDescriptor; 
       fontDict.getCOSDictionary().removeItem(cidSet); 
      } 
      } 
     } 
     } 
    } 
    } 
}

來源

2015-07-23 15:35:44 pulse00

已經檢查出來，工作完全正常:) thx很多！ – Paundl

行 - 我想我有從卡拉斯和/或Adobe技術的角度來看你的問題的答案（和一次，我參加與卡拉斯及其pdfToolbox技術也在Acrobat中使用）。

根據我的研究和我諮詢的人，您的示例PDF文檔包含CID字符集不完整的字體。爲什麼pdfToolbox或Acrobat會說它是一個有效的PDF/A-1a文件，但不是有效的PDF/A-3a文件？有趣的問題：

1）在PDF/A-1a和PDF/A-3a之間，不完整CID集合的規則更改爲。在PDF/A-3a中它們是嚴格的。

2）但是，在PDF/A-1a中，一個CID集總是必須在那裏，在PDF/A-3a中，您可以擁有一個有效的兼容文件，而不需要這樣的CID集。因此，您的PDF文件包含一個CID集合（這使其對PDF/A-1a和A-3a有效），但是當該CID集合適用於A-1a時，它不包含包含要生成的所有字符符合A-3a。

爲了測試這個理論的至少一部分，我通過一個名爲「Remove CIDset if incomplete」的修復程序通過pdfToolbox處理文件。該更正（顧名思義）將從文件中刪除CID集，但不會更改任何其他內容。完成後，您的文件將被驗證爲有效的A-3a文件。

這留下了爲什麼pdftools網站聲稱這是一個有效的PDF/A-3a文件的問題;根據我所說的人，這個文件的預檢結果是正確的，這個文件應該有錯誤。所以也許這就是你需要用pdftools傢伙來解決的問題（他們可能會用卡拉斯來弄清楚誰最終是正確的）。

如果您想進一步討論這個問題，請隨時給我發送個人信息 - 關於這些工具本身的更多討論可能會成爲這個公共站點的焦點話題。

來源

2015-07-17 07:53:36

感謝您的回覆！這非常有幫助！我的問題是，我想生成一個有效的PDF/A-3A。就像你說的那樣，解決步驟是去除不完整的CIDset。我試圖用PDFBox，直到現在沒有成功，我會寫，如果我找到一個解決方案。 – Paundl

PdfBox：PDF/A-1A到PDF/A-3A

回答

相關問題