2015-09-25 73 views
0

我正在尋找批量轉換大量的ALTO格式的XML文檔到Windows中的各種格式,至少txt,如果可能的話rtf和pdf也會很方便。將ALTO XML轉換爲格式化的PDF/RTF/TXT?

ALTO是由庫和檔案庫用來保存元數據/格式/字體/佈局感知文本以便在PDF圖像中重建的xml標準。

我只有XML文件的大檔案,我想轉換爲文本挖掘。我使用的軟件需要純文本或rtf文件,因此將xml轉換爲純文本是目標。因爲ALTO是一個標準,轉換應該是可能的,不是嗎?

一個好處是能夠將元數據嵌入pdf或將其轉換爲像LaTex這樣的書目格式文件。這可能是一個單獨的程序。

我很感激任何想法,

謝謝。

回答

0

爲了從ALTO XML中獲取純文本,您可以嘗試在Java中使用此(hacky)Python腳本中使用的簡單方法:https://github.com/cneud/alto-ocr-text

我目前並不知道直接轉換爲PDF或LaTeX,儘管您可以使用樣式表完成此操作,具體取決於您的ALTO文件的外觀。