0
我正在使用iText從PDF提取文本到字符串,但我遇到了一些問題 與一些PDF。當我試圖提取文本時,讀者只會在SOME pdfs上提取空白/破壞文本 。摧毀文本iText PDF字體和樣式的文本提取
例子:
「號ISBE長到t他牛逼EST FO [R抽行爲離子TEX T」
是什麼這個問題的原因是什麼?
我正在考慮刪除字體並將字體更改爲合適的字體,以便讀者通過 讀取。我已經嘗試過研究這個,但是我發現並不能幫助我。
你已經知道一般性的原因(如李的回答中提到的)PDF文本提取的困難,從這裏回答你以前的問題。如果有問題的PDF格式特別麻煩,您可能需要提供這些文件以供檢查。在已經返回文本的情況下(雖然插入了有趣的空格),字體替換很不可能發揮作用。在這種情況下,您只能檢索空格字體替換可能有助於某些非常特殊的情況,但通常不會。 – mkl