3
我目前正在嘗試解析PDF文件的語義結構。我相信添加的元數據可以讓PDF訪問是正確的方式,但是我找不到一個能夠清楚處理它的庫。是否有PDF庫可以處理可訪問性?
我已經嘗試過iOS上的PDFLib TET,但是我無法打開某些測試文檔,並且返回的錯誤太隱晦,無法Googleable。
有沒有其他的庫可以做同樣的事情?
我目前正在嘗試解析PDF文件的語義結構。我相信添加的元數據可以讓PDF訪問是正確的方式,但是我找不到一個能夠清楚處理它的庫。是否有PDF庫可以處理可訪問性?
我已經嘗試過iOS上的PDFLib TET,但是我無法打開某些測試文檔,並且返回的錯誤太隱晦,無法Googleable。
有沒有其他的庫可以做同樣的事情?
我會看看pCOS庫(也來自http://pdflib.com)。爲了在PHP中使用,您可以選擇http://www.setasign.com/。他們可能有一個用於這個目的的工具。
解析語義的目標是什麼?你是否呈現爲HTML? – ckundo
需要更多說明。你是否希望將結構添加到不存在的地方?什麼庫可以解釋某些文本字符串爲h1或h2 ...或一組信息作爲表?如果您正在處理源內容並希望生成帶標籤的pdf,那麼這是不同的。 –
正如@ckundo所說,我想讀一個帶標籤的PDF並將其轉換爲HTML。 – ruipacheco