2008-11-19 55 views
0

我想知道從Microsoft word(.doc和.docx)文檔中解析和獲取文本內容的過程。使用的編程語言應該是簡單的「C」(應該是gcc)。「C」中的Microsoft word Text Parser

是否有那些已經在做這項工作的所有庫,

擴展:我可以使用同樣的方法來解析微軟功率點文件還文本?

回答

1

Microsoft Word文檔是一個巨大的野獸 - 你絕對不想自己寫這個代碼。查看使用現有的免費Word庫,如antiwordwvWare

+0

好像catdoc是類似的庫。反義詞是我實際尋找的;期待着在這個巨大的野獸中去。謝謝(你的)信息。 – FL4SOF 2008-11-19 11:50:55

1

我不知道存在的庫,但格式規範可從Microsoft免費獲得,並承諾不會因使用它們而起訴你。

1

在windows上,讓word完成作業並與COM對象進行接口,在linux上,作業完成於antiword。或者,您可以使用UNO對象模型在任何平臺上自動執行OpenOffice.org

1

如果您願意在C中使用COM接口,您可以使用自Windows 2000以來內置於每個Windows版本的IFilter接口。您可以使用它從任何辦公文檔中提取文本( Word,Excel等),PDF文件或安裝了IFilter支持的任何文件類型。

我在幾年前寫了一個blog post。這全是C++,但是你可以使用C中的COM對象。