2
我修改python腳本(使用PyUno),將MSWORD文檔(.docx)中讀取,並將其轉換爲XML。我有一個腳本,將盡我所需here,除了它會從文檔轉換爲pdf。我找不到可接受的xml導出格式列表。
任何幫助將不勝感激。
謝謝!
:BP:
我修改python腳本(使用PyUno),將MSWORD文檔(.docx)中讀取,並將其轉換爲XML。我有一個腳本,將盡我所需here,除了它會從文檔轉換爲pdf。我找不到可接受的xml導出格式列表。
任何幫助將不勝感激。
謝謝!
:BP:
這兩個FILTERNAME值產生不同的平板XML格式:
OpenDocument Text Flat XML
MS Word 2003 XML
我做這個發現這些名字
請記住,.odt和.docx也是基於XML的格式,只有它們是壓縮而不是平面。可以通過做這樣的事情來解析這些格式的文件:
import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile
filepath = "in.odt" # or "in.docx"
tempDir = "path/to/temp/dir/" # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
zipper.extractall(tempDir)
try:
dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
# handle exception
澄清:上述引用的代碼使用:屬性名=「FILTERNAME」和值「writer_pdf_Export」 - 什麼是一個XML等價文件? – NotCharlie