2016-01-05 18 views
2

所有,PyUno文件類型轉換爲作家

我修改python腳本(使用PyUno),將MSWORD文檔(.docx)中讀取,並將其轉換爲XML。我有一個腳本,將盡我所需here,除了它會從文檔轉換爲pdf。我找不到可接受的xml導出格式列表。

任何幫助將不勝感激。

謝謝!

:BP:

+0

澄清:上述引用的代碼使用:屬性名=「FILTERNAME」和值「writer_pdf_Export」 - 什麼是一個XML等價文件? – NotCharlie

回答

0

這兩個FILTERNAME值產生不同的平板XML格式:

    • OpenDocument Text Flat XML
    • MS Word 2003 XML

    我做這個發現這些名字

  1. 啓用宏錄製工具 - >選項 - >高級,選中「啓用宏錄製」。
  2. 工具 - >宏 - >記錄宏。
  3. 文件 - >另存爲。爲該類型選擇各種選項。
  4. 命名宏,然後在生成的基本代碼中檢查FilterName屬性。

請記住,.odt和.docx也是基於XML的格式,只有它們是壓縮而不是平面。可以通過做這樣的事情來解析這些格式的文件:

import os 
import xml.dom.minidom 
import xml.parsers.expat 
import zipfile 

filepath = "in.odt" # or "in.docx" 
tempDir = "path/to/temp/dir/" # change according to your system 
with zipfile.ZipFile(filepath, 'r') as zipper: 
    zipper.extractall(tempDir) 
try: 
    dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml")) 
except xml.parsers.expat.ExpatError: 
    # handle exception