2011-07-20 28 views
2

最近我有一個需要像我需要將PDF文件轉換爲xml.So請告訴我如何使用Python或Ruby編程語言。 請儘早回覆我的問題 您的幫助將不勝感激。有沒有Ruby或python中的任何方法將pdf轉換爲xml

+0

是否想從PDF中提取數據並將其放入XML文件中,還是希望將PDF表示爲XML(及其所有佈局信息)? – home

+0

感謝您的回覆。 – Pradeep

+0

我只是想從pdf中提取數據並放入xml中。但我想知道甚至另一種方法,所以請告訴我兩種方法 – Pradeep

回答

4

使用pdftohtml

它可以與brew install pdftohtml一起安裝。這將pdftohtml添加到您的路徑。

因此,將PDF轉換爲XML,可以運行pdftohtml -xml your_file.pdf your_file.xml

在Python中,你可以使用這些行:

import os 

cmd = 'pdftohtml -xml your_file.pdf your_file' 
os.system(cmd) 

注意pdftohtml自動添加 'XML' 擴展到你的第二個!文件輸入

+2

我知道這是一個非常舊的帖子,但爲了防止有人絆倒它,我會建議:brew安裝poppler 它有pdftohtml與它打包和有更多的功能,仍然受到支持。 – 2tim

相關問題