2011-12-21 90 views
4

是否有任何可用於將MSWord .doc/.docx文件轉換爲純文本格式的c/C++開放源代碼庫?.doc to plain text轉換器

+2

邁克爾佩林或莎拉帕林? – 2011-12-21 12:44:33

+0

@Paul Michael Palin。總是。 – Bojangles 2011-12-21 12:51:05

+0

http://blog.stackoverflow.com/2010/11/qa-is-hard-lets-go-shopping/ – 2011-12-21 12:52:53

回答

1

我不知道該任務的庫,但也許你可以從Antiword提取重要位。不過,我不確定Antiword是否處理docx。

2

這些實際上不是庫,但可能仍然有用。有2個控制檯應用程序,我知道antiwordcatdoc。 Antiword是GPL,catdoc源碼也可用,但我不確定授權。這些都是用C編寫的,所以使用C++中的這些應該是可能的。

2

如果一切都失敗了,.docx文件實際上是一個ZIP文件,其中有幾個目錄。其中一個目錄中的其中一個文件具有文檔文本,如帶有標記的XML。有一些標籤必須處理,因爲它們標記行結束,但其中大部分標記標記自動更正標記各種東西的位置,或者標記格式化的隨機分佈的5層深嵌套標記。

(我不得不用手一次的機器上沒有上網要做到這一點,有人保存的文件與Office 2011,並希望在朋友的地方在boonies打開它在Office 2005左右。)