2017-04-26 106 views
0

我試圖提取內ODP(OpenDocument演示文稿)文件中的信息層次結構:標題,副標題,正文...提取從ODP或ODF文件結構數據

你知道的任何工具或技術,將做這份工作?

否則,是否有解析這些ODP文檔以提取樣式信息的手段? 所以我可以稍後從它的樣式中推斷出文檔結構。

恐怕ODP文件中XML文件的結構可能取決於軟件或版本。所以,我寧願找到一個高層次的解決方案,而不是直接解析這個XML文件。

+0

XML的結構由OpenDocument XML標準定義。所以它不依賴於「軟件」。但是標準確實有不同的版本,目前的版本是1.2。這裏:https://en.wikipedia.org/wiki/OpenDocument –

回答

0

,因爲我無法找到任何工具,這將使從演示文件中提取輪廓,標題,文字......,我創建Exide,一個開源的API支持ODP,PPTX和投影儀的文件,它能夠:

  • 幻燈片標題提取
  • 幻燈片正文提取
  • 命名實體識別(unaccurate)
  • 強調的文字識別
  • 的URL識別
  • 結構檢測和輪廓生成
  • 識別以下silde類型:
    • 簡介
    • 結論
    • 定義
    • 的內容表
    • 參考
    • 節頭

欲瞭解更多信息,請the github page of the project