2008-09-24 52 views
14

我最近了解到.docx文件的基本結構(它是一個特殊結構的zip壓縮文件)。但是,docx並不像doc一樣被格式化。.doc格式如何工作?

doc文件如何工作?什麼是文件格式,結構等?

+0

它是二進制的,並且該規範可以在[Microsoft的Open Specification Promise](http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise)條款下提供 – 2008-09-24 01:24:46

回答

1

.doc格式文件是相當複雜的。與大多數微軟格式一樣,它反映了版本和傳統支持之間長期的變化歷史。他們在不久之前發佈了它,因此如果您想查看它(以及其他Office 2007之前的格式),請參閱knock yourself out here

0

有Microsoft Word的.doc,然後是純文本.doc。這聽起來像你想知道專有的Microsoft格式。

Wikipedia

的DOC格式的Microsoft Office的Word格式各不相同。 Word版本多達97使用來自微軟的Word版本不同的格式,97和2003年

之間

直到Word 2007中,其中 .docx,雖然打包的文件,也未必就是一個.zip檔案。它是一個結構化的XML文檔。

14

這不是一個直接回答你的問題,但我強烈建議閱讀喬爾斯波爾斯基的文章Why are the Microsoft Office file formats so complicated? (And some workarounds)。它會讓你深入瞭解.doc格式真正的複雜程度 - 以及爲什麼。喬爾也給出了什麼樣的.doc格式由一個非常基本概述:

你看時,Excel 97-2003文件是OLE複合文檔,這是本質上,文件中的單個文件中 系統。這些都是非常複雜的,你必須閱讀 另外9頁規格來解決這個問題。這些「規格」看起來更像C數據 結構比我們傳統上認爲的規格。這是一個完整的分層文件 系統。

(引用是指Excel文件,但它也適用於Word文檔)。內容翔實的文章,有助於理解爲什麼.docx和ODF文件在從外部角度進行檢查時的邏輯結構和設計更加合理。

5

MS Word DOC格式背後的基本思想是OLE Compund Document,正如Kibbee已經寫過的那樣,它基本上是一個內存轉儲。這是存儲文檔的一種非常複雜和複雜的方式,但是如果您真的深入瞭解應用程序Word,您會知道它具有多麼強大的功能,如果您已將其用於商業環境中,感覺它如何與Office系列中的其他程序集成。

通常,OLE Compund Documents是非常易於擴展的結構,它允許您將各種數據填充到一個文件中,甚至在某種程度上處理您沒有安裝應用程序的數據。例如,如果將公式對象(從MS公式編輯器)插入到文檔中,它將作爲子對象存儲,就像文件內的文件一樣,但該對象不僅包含公式編輯器所需的數據編輯並渲染它,它也有一個通用的位圖(或圖元文件,也許)存儲,因此它可以顯示,但不編輯,沒有安裝公式編輯器的機器上。

這是爲什麼,爲你如何要讀其他人連接到已經規格;)

如果你想討巧處理這些文件的工作,雖然,確保您的軟件在安裝了Word的Windows計算機上運行,​​然後使用COM/OLE自動化打開並處理這些文檔。那麼你將不必擔心文件格式。