2010-09-16 54 views

回答

0

您指定的方法通常用於提取字符串COS對象,並且在從PDF頁面獲取文本時可能沒有直接用處。 COS對象存儲在PDF的文檔目錄樹中。您通常使用其鍵值在樹中獲取COS對象。 COS對象可以是幾種不同類型的(詞典,數組,數字,字符串,流等等)的每個類型被識別用密鑰,允許它被識別,並通過類似的方法獲得:

CGPDFDictionaryGetString(key) 
CGPDFDictionaryGetNumber(key) 
CGPDFDictionaryGetDictionary(key) 

我已經從來沒有必要自己提取頁面文本,但查看簡單的PDF文件時,頁面上的文本似乎在頁面的「內容」流中。

所以你的情況,你可能想要做像 1)獲取文檔目錄 2)獲取「頁數」字典 3)獲得第(N),您關心的 4)獲取頁面的「內容」流並解析文本。

圖像通常存儲在頁面上的「資源」字典(駐留在同一級別的「內容」流。

如果你想獲得更好的理解COS的對象樹及其結構,您可以使用Acrobat的「Preflight」實用工具查看當前查看的PDF。在高級菜單下:預檢... |選項|瀏覽內部PDF結構...

當然,翻轉official spec是一件好事點子:

希望對大家有幫助!

+0

但是該CGPDFDictionaryGetString(key)中的「Key」應該是什麼? – 2010-11-09 05:44:54

相關問題