我正在尋找一種方法來實際獲取文件本身的內容,以文本格式轉儲。例如:我不想要一個字典對象,我不想要某種提取策略選項,我只想要與itextsharp用來解析的相同文本文檔...整個事物作爲字符串或字符串構建器...itextsharp PDF到文本轉儲
我還沒有找到一種方法來做到這一點使用任何工具,所以永遠......我的問題是,我正在嘗試閱讀一個動態的PDF到一個C#應用程序......我們都知道那些補給動態PDF可以不會被iTextSharp解析(AcroForm和AcroFields總是空的),所以我想如果我能得到整個文件的實際文本轉儲,我可以看到它看起來像什麼,並自己解析它爲這個特定的任務(例如:爲每個我知道我可以收到的文檔創建一個類,並根據我所看到的創建一個地圖)。
如果任何人都可以幫助我做到這一點,甚至更好,請在C#中找到一種方式來爲PDF提取XML源(有點像單擊LiveCycle中的XML源代碼標籤),這將不勝感激。
謝謝!
馬特
要知道,即使是全文的頁面此頁面的內容可能僅僅包含對其他資源流,又包含文本或引用其他資源引用... – mkl
它具有對所選字體,選定圖像等的引用。例如,在這裏很明顯,選擇了/ F1字體。現在您知道應該從哪裏開始在可用流中查找此對象。 – VahidN
在上下文中,XObject資源可能更相關。或者根本沒有,OP似乎畢竟對XFA表單數據感興趣。 – mkl