0
我試圖提取內ODP(OpenDocument演示文稿)文件中的信息層次結構:標題,副標題,正文...提取從ODP或ODF文件結構數據
你知道的任何工具或技術,將做這份工作?
否則,是否有解析這些ODP文檔以提取樣式信息的手段? 所以我可以稍後從它的樣式中推斷出文檔結構。
恐怕ODP文件中XML文件的結構可能取決於軟件或版本。所以,我寧願找到一個高層次的解決方案,而不是直接解析這個XML文件。
我試圖提取內ODP(OpenDocument演示文稿)文件中的信息層次結構:標題,副標題,正文...提取從ODP或ODF文件結構數據
你知道的任何工具或技術,將做這份工作?
否則,是否有解析這些ODP文檔以提取樣式信息的手段? 所以我可以稍後從它的樣式中推斷出文檔結構。
恐怕ODP文件中XML文件的結構可能取決於軟件或版本。所以,我寧願找到一個高層次的解決方案,而不是直接解析這個XML文件。
,因爲我無法找到任何工具,這將使從演示文件中提取輪廓,標題,文字......,我創建Exide,一個開源的API支持ODP,PPTX和投影儀的文件,它能夠:
欲瞭解更多信息,請the github page of the project。
XML的結構由OpenDocument XML標準定義。所以它不依賴於「軟件」。但是標準確實有不同的版本,目前的版本是1.2。這裏:https://en.wikipedia.org/wiki/OpenDocument –