2011-12-05 139 views
0

我有同樣的問題從pdf文件中提取阿拉伯文本, 任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次,但沒有結果。pdf解析爲文本使用java

+1

*「我有同樣的問題..」*究竟是什麼問題? –

+0

我用PDFBox提取文本的效果非常好。通常比圖書館更好,但是很多PDF不能以一種明智的線性方式存儲文本,這使得從文本中自動提取可讀文本成爲不可能。 (但是我沒有阿拉伯語的經驗)。您確定您擁有的文字實際上是文字,而不是PDF內嵌的圖像嗎? – RoToRa

回答

0

有幾件事情,可能出錯,而從PDF中提取文本:

  1. 的PDF是加密的。在這種情況下,您需要密碼才能提取數據。
  2. 作爲一種格式的PDF並不是真的意味着要提取文本。所以pdfbox通常會嘗試識別相互靠近的字符並將它們與單詞相結合。就像你可以成像一樣,這很容易出錯。

查看this question瞭解更多信息。

+0

您的程序是否需要直接從pdf中提取文本?如果沒有,你可以使用ocr將pdf轉換爲文本並從txt文件中讀取它。 – Mr1159pm