我有一個pdf
文件,其中包含表單字段並需要將數據導出到xml
文件中AUTOMATICALLY。下面是我爲測試創建了一個示例形式的屏幕:如何將pdf表單字段自動導出到xml
注:它的偉大工程出口它手動使用Acrobat Professional中通過點擊Tools > Form > Export Form Data
,最後選擇了文件輸出的XML擴展。這是我手動導出時得到的結果:
<?xml version="1.0" encoding="UTF-8"?>
<fields>
<first_name>John</first_name>
<last_name>Doe</last_name>
</fields>
但是,我需要自動執行它,與python腳本,Java實現或一些命令行工具。任何想法,我可以用來導出表格字段數據的庫或工具到xml
?該工具或庫應該是開源,我可以將它集成到我的工作流程中。
我已經嘗試過蟒蛇pdfminer
庫,這讓我導出PDF文件的靜態部分(如Static form header
,First name:
和Last name:
):但是如何表單字段數據(出口在我的情況下,表單字段first_name
的內容和last_name
)??
編輯:隨意下載sample.pdf文件here。
它看起來不錯!我試圖通過命令行提取所有表單域,它的工作原理。我將在明天開始研究Java源代碼示例,但從我看到的正是我所期待的。我會及時通知你的! – Michael
我很高興它有一點幫助。我忘了說'jdom庫'可能是將對象轉換爲xml的好方法。祝你好運! –
很棒!感謝您抽出寶貴的時間 :) – Michael