2013-01-23 33 views
0

我正在使用iText從PDF提取文本到字符串,但我遇到了一些問題 與一些PDF。當我試圖提取文本時,讀者只會在SOME pdfs上提取空白/破壞文本 。摧毀文本iText PDF字體和樣式的文本提取

例子:

「號ISBE長到t他牛逼EST FO [R抽行爲離子TEX T」

是什麼這個問題的原因是什麼?

我正在考慮刪除字體並將字體更改爲合適的字體,以便讀者通過 讀取。我已經嘗試過研究這個,但是我發現並不能幫助我。

+0

你已經知道一般性的原因(如李的回答中提到的)PDF文本提取的困難,從這裏回答你以前的問題。如果有問題的PDF格式特別麻煩,您可能需要提供這些文件以供檢查。在已經返回文本的情況下(雖然插入了有趣的空格),字體替換很不可能發揮作用。在這種情況下,您只能檢索空格字體替換可能有助於某些非常特殊的情況,但通常不會。 – mkl

回答

0

這是由文本存儲在PDF文件中的方式引起的。它只是將信息與渲染和位置信息。文本提取算法非常聰明,因爲它可以找到似乎靠得很近的字母,如果是的話,它會將它們放在一起。如果他們不那麼接近,它會放入一些空間。不過,我不能告訴你該怎麼做。