如何在iphone的pdf頁面中使用CGPDFScanner查找Word座標？

我正在使用CGPDFScanner解析pdf頁面。但我無法找到serach結果的協調組合。如何在iphone的pdf頁面中使用CGPDFScanner查找Word座標？

在void Tm1（CGPDFScannerRef掃描程序，void * info）中，我只爲某個單詞獲得共同oridnates，但不是爲pdf的每個單詞。

我怎樣才能找到pdf頁面的每個單詞的共同組合，例如（x，y）？

2012-02-17 uttam

大幅度低估了將PDF轉換爲文本的複雜性。我也犯了這個錯誤，花了幾個月的時間編寫一個可以與大多數PDF一起工作的文本提取引擎。我的代碼是商業的，但只是給你一個想法：

Td，TD，Tm，T *，d0，d1都可以包含文本。（d0，d1適用於Type3字體，不太常見，但Microsoft Word確實喜歡它們）。因此可以在XObjects中執行任何對象（也是遞歸的）。但是你也需要解析字體，因爲許多PDF都有CMaps附加到將字符（或字符-PDF也可以有連字符）轉換爲「隨機數字」的字體。請注意，XObjects可能還包含字體，並且按照正確的順序解析它們至關重要，因爲字體可以具有父級字體。

Adobe's ToUnicode PDF給你一些想法如何開始，但只是一個警告，規範是非常不完整的。官方的PDF參考文獻還有更多，但您仍然可以找到不應該工作的文檔（在查看規範時），但仍然可以工作（當您在Adobe Acrobat中進行嘗試時）。

來源

2013-01-12 10:43:10 steipete

如何在iphone的pdf頁面中使用CGPDFScanner查找Word座標？

回答

相關問題