我正在研究分析PDF文件並根據它們生成HTML的軟件。有很多事情已經這樣做,所以我知道這是可能的,我必須寫出自己的業務原因。閱讀PDF中的字體顏色信息
我已經設法從PDF中獲取所有的文本信息,位置,字體,但我努力讀出文本的顏色。我目前正在使用PDFMiner來分析PDF,但我開始認爲我需要編寫自己的PDFReader,即使如此,我仍然無法弄清楚文檔中的顏色信息甚至保留在哪裏!我甚至閱讀了PDF規範,但找不到我需要的信息。
我已經淘到谷歌,沒有喜悅。
在此先感謝!
我正在研究分析PDF文件並根據它們生成HTML的軟件。有很多事情已經這樣做,所以我知道這是可能的,我必須寫出自己的業務原因。閱讀PDF中的字體顏色信息
我已經設法從PDF中獲取所有的文本信息,位置,字體,但我努力讀出文本的顏色。我目前正在使用PDFMiner來分析PDF,但我開始認爲我需要編寫自己的PDFReader,即使如此,我仍然無法弄清楚文檔中的顏色信息甚至保留在哪裏!我甚至閱讀了PDF規範,但找不到我需要的信息。
我已經淘到谷歌,沒有喜悅。
在此先感謝!
顏色爲文本和其他填充圖形使用g
,rg
k
或運營商在PDF文件中的內容流對象的一個被設置時,在節4.5.7 顏色算在PDF參考手冊所描述的。
示例G.3簡單圖形示例在參考手冊中顯示了這些操作符用於描邊和填充某些形狀(但不包括文本)。
http://www.adobe.com/devnet/pdf/pdf_reference.html
當解析PDF文件自己,你通過它包含該文件的 交叉引用表偏移的文件的末尾讀取拖車 開始。此表格包含PDF文件中每個對象的文件偏移量 。這些對象位於樹形結構中,其他對象的引用爲 。其中一個對象將是 的內容流。這在章節中描述3.4文件結構 和3.6文檔結構在PDF參考手冊。
可以自己解析PDF文件,但這是很多工作的 。內容 流可能被壓縮,包含對其他對象的引用, 包含註釋等,您必須處理所有這些情況。
PDFMiner軟件已讀取內容流。也許它 會更容易擴展PDFMiner來報告文本的顏色 呢?
感謝您的幫助。我已經投票給你了。你知道我如何解碼流對象來查看它們嗎? –
關於如何提取顏色信息的任何消息? – JulienFr