2017-05-25 67 views
0

我被分配到這個特定項目上工作,在那裏我們將獲得AFP(高級函數演示文件)文件,我們需要獲取文檔,也就是內容和相應的元數據。我一直在研究AFP(高級函數演示文件)文件格式,實際上並沒有任何有關我應該如何執行此任務的有用資源。需要在閱讀AFP文件和提取內容和元數據方面領先一步

到目前爲止,我幾乎沒有任何信息,不知道從哪裏開始。我看了一些開源項目,發現這個:https://github.com/yan74/afplib

我試着運行它..但它不適用於我有的示例法新社文件。

真的需要一些洞察力,我應該通過什麼資源來完成這個項目。

我需要用Java編寫代碼,並且經歷了一些許可的軟件,比如PROARCHIVER和PAPYRUS。

在此先感謝

回答

0

AFP是一個簡單的格式,它的組成結構域,你的第一步是其解碼,下載這個:「混合對象文檔內容體系結構參考」先讀50頁,寫代碼,以分割afp到結構化字段中,以創建文件的簡單轉儲。

,如果你想提取圖像AFP世界稱他們IOCA,所以你需要在那之後:法師Ø bject Ç ontent 一個體系結構的設計基準

如果要提取文本(所謂PTX),你需要:P resentation 牛逼ËX噸對象內容體系結構參考

做得好

+0

感謝您的回答。 –

+0

還有一件事,我試着看看我的AFP文件是如何構造的,並發現NOP結構化字段中的大部分數據。你能告訴我如何解析這種類型的結構化字段,我卡在這裏。同時,我將閱讀你在答案中提到的文件。再次感謝。 –

+0

NOP表示沒有操作,它是一個註釋,nop的有效載荷是原始的,它應該在我列出的第一個文檔中描述 – owairc