我想知道從Microsoft word(.doc和.docx)文檔中解析和獲取文本內容的過程。使用的編程語言應該是簡單的「C」(應該是gcc)。「C」中的Microsoft word Text Parser
是否有那些已經在做這項工作的所有庫,
擴展:我可以使用同樣的方法來解析微軟功率點文件還文本?
我想知道從Microsoft word(.doc和.docx)文檔中解析和獲取文本內容的過程。使用的編程語言應該是簡單的「C」(應該是gcc)。「C」中的Microsoft word Text Parser
是否有那些已經在做這項工作的所有庫,
擴展:我可以使用同樣的方法來解析微軟功率點文件還文本?
我不知道存在的庫,但格式規範可從Microsoft免費獲得,並承諾不會因使用它們而起訴你。
在windows上,讓word完成作業並與COM對象進行接口,在linux上,作業完成於antiword。或者,您可以使用UNO對象模型在任何平臺上自動執行OpenOffice.org。
好像catdoc是類似的庫。反義詞是我實際尋找的;期待着在這個巨大的野獸中去。謝謝(你的)信息。 – FL4SOF 2008-11-19 11:50:55