我正在使用CGPDFScanner解析pdf頁面。 但我無法找到serach結果的協調組合。如何在iphone的pdf頁面中使用CGPDFScanner查找Word座標?
在void Tm1(CGPDFScannerRef掃描程序,void * info)中,我只爲某個單詞獲得共同oridnates,但不是爲pdf的每個單詞。
我怎樣才能找到pdf頁面的每個單詞的共同組合,例如(x,y)?
我正在使用CGPDFScanner解析pdf頁面。 但我無法找到serach結果的協調組合。如何在iphone的pdf頁面中使用CGPDFScanner查找Word座標?
在void Tm1(CGPDFScannerRef掃描程序,void * info)中,我只爲某個單詞獲得共同oridnates,但不是爲pdf的每個單詞。
我怎樣才能找到pdf頁面的每個單詞的共同組合,例如(x,y)?
大幅度低估了將PDF轉換爲文本的複雜性。我也犯了這個錯誤,花了幾個月的時間編寫一個可以與大多數PDF一起工作的文本提取引擎。我的代碼是商業的,但只是給你一個想法:
Td,TD,Tm,T *,d0,d1都可以包含文本。 (d0,d1適用於Type3字體,不太常見,但Microsoft Word確實喜歡它們)。因此可以在XObjects中執行任何對象(也是遞歸的)。但是你也需要解析字體,因爲許多PDF都有CMaps附加到將字符(或字符-PDF也可以有連字符)轉換爲「隨機數字」的字體。請注意,XObjects可能還包含字體,並且按照正確的順序解析它們至關重要,因爲字體可以具有父級字體。
Adobe's ToUnicode PDF給你一些想法如何開始,但只是一個警告,規範是非常不完整的。官方的PDF參考文獻還有更多,但您仍然可以找到不應該工作的文檔(在查看規範時),但仍然可以工作(當您在Adobe Acrobat中進行嘗試時)。