iText PDF字體和樣式的文本提取

我正在使用iText從PDF提取文本到字符串，但我遇到了一些問題與一些PDF。當我試圖提取文本時，讀者只會在SOME pdfs上提取空白/破壞文本。摧毀文本iText PDF字體和樣式的文本提取

例子：

「號ISBE長到t他牛逼EST FO [R抽行爲離子TEX T」

是什麼這個問題的原因是什麼？

我正在考慮刪除字體並將字體更改爲合適的字體，以便讀者通過讀取。我已經嘗試過研究這個，但是我發現並不能幫助我。

2013-01-23 Christian Eric Paran

你已經知道一般性的原因（如李的回答中提到的）PDF文本提取的困難，從這裏回答你以前的問題。如果有問題的PDF格式特別麻煩，您可能需要提供這些文件以供檢查。在已經返回文本的情況下（雖然插入了有趣的空格），字體替換很不可能發揮作用。在這種情況下，您只能檢索空格字體替換可能有助於某些非常特殊的情況，但通常不會。 – mkl

這是由文本存儲在PDF文件中的方式引起的。它只是將信息與渲染和位置信息。文本提取算法非常聰明，因爲它可以找到似乎靠得很近的字母，如果是的話，它會將它們放在一起。如果他們不那麼接近，它會放入一些空間。不過，我不能告訴你該怎麼做。

來源

2013-01-23 22:51:12

iText PDF字體和樣式的文本提取

回答

相關問題