0
我正在尋找批量轉換大量的ALTO格式的XML文檔到Windows中的各種格式,至少txt,如果可能的話rtf和pdf也會很方便。將ALTO XML轉換爲格式化的PDF/RTF/TXT?
ALTO是由庫和檔案庫用來保存元數據/格式/字體/佈局感知文本以便在PDF圖像中重建的xml標準。
我只有XML文件的大檔案,我想轉換爲文本挖掘。我使用的軟件需要純文本或rtf文件,因此將xml轉換爲純文本是目標。因爲ALTO是一個標準,轉換應該是可能的,不是嗎?
一個好處是能夠將元數據嵌入pdf或將其轉換爲像LaTex這樣的書目格式文件。這可能是一個單獨的程序。
我很感激任何想法,
謝謝。