2016-09-15 58 views
0

我試圖將Docx轉換爲Html, ,但Docx可能包含WMF格式的圖像,MathType方程和tex格式的word方程,並帶有$分隔符。將數學類型方程從word docx轉換爲使用ruby的詞方程

我已經試過轉換DOCX使用pandoc和LibreOffice到HTML:使用pandoc

問題: Pandoc跳過MathType的公式,所以我不得不閱讀document.xml中並轉換WMF使用gimp's convert命令行工具PNG。

這使得一些等式的格式非常不可讀。

使用libreoffice的問題: 它實際上將整個文檔轉換爲HTML格式非常好,但在轉換過程中會從邊上切出單詞方程。

我想要的是一些可以將Docx轉換成Html的工具,它可以將MathType方程式和單詞方程式轉換爲tex格式。

我想用紅寶石做這件事,但任何解決方法或想法也是最受歡迎的。

謝謝。

回答

1

pandoc docx reader supports only OMML數學,不是舊的MathType。

您可以編寫一個pandoc filter,在pandoc AST(它將作爲純文本)中找到數學計算並將它們轉換爲pandoc math elements,pandoc LaTeX作家將自動將其轉換爲TeX數學。

相關問題