2012-06-23 139 views
0

我有一個單詞2007 .docx文檔。我通過在最後添加擴展名「.zip」創建了它的zip文件。當我解壓zip文件時,它給了我幾個帶有xml文件的文件夾。我想通過結合文件夾中的所有xml文件來獲取單個xml表單,以便爲此寫入xsl樣式表。我不想打開「.docx」文件並嘗試「另存爲xml」。有沒有辦法做到這一點?或者我能否至少擁有該文檔的WordML文件?如果是這樣的話。先謝謝你。將單詞2007文件轉換爲XML

+0

什麼是XML文件的結構?你想要什麼輸出? (你說合並,但合併如何?根據什麼模式?)你有什麼嘗試?等編輯問題。 – Utkanos

+0

@Utkanos謝謝我編輯了這個問題。 – harsh

+0

真的嗎?看起來沒有改變,仍然沒有代碼在那裏。 – Utkanos

回答

0

使用您選擇的支持解壓縮,目錄樹行和基於行的文本文件處理的工具(set)。首先解壓縮文件,保存壓縮文件的目錄結構。接下來將您的目錄助手放在您解壓縮到的目錄中,處理所有.xml.rels文件;從每個文件中刪除第一行(包含xml聲明,例如<?xml version="1.0" encoding="UTF-8" standalone="yes"?>),並將它們依次連接到全局輸出xml文件,其第一行應包含一個xml聲明本身。 確保你的工具尊重xml文件的字符集編碼(應該是utf-8)。

PerlFile::FindArchive::Zip來方便這一任務,但你可以得到你的工作與標準的CLI工具完成的(壓縮/解壓縮,發現,貓,SED)。

您可能需要補充.rels文件的頂層Relationships元素與一些合成的顯着特性,以避免ID衝突 - 多數關係項的適用應是唯一給出的Type屬性,但在MS規格出現在是否有點模糊辦公室本身保證對同類型的所有關係項目的唯一ID(或者我沒有完全閱讀規範......)。請注意,相關的非xml文件(圖形,vba代碼)的名稱顯示在[Content_Types].xml和關係文件中。

希望(仍然)幫助,問候,汽車