2011-03-07 59 views
3

我有一個阿拉伯文PDF,我想用Java分析它到文本文檔中。我已經嘗試了很多次,英語單詞解析成功,但阿拉伯語單詞沒有。pdf解析爲java中的文本

任何人都可以推薦一個解決方案,將正確地轉換阿拉伯語單詞嗎?

+2

您使用哪個庫來讀取pdf文件? – 2011-03-07 09:18:05

+0

我想PDFBOX和iText的和Apache像我想 – moneera 2011-03-07 09:40:58

+0

看到這些,他們可能不工作插件:http://www.prasannatech.net/2009/01/convert-pdf-text-parser-java-api-pdfbox。 HTML – 2011-03-07 09:14:32

回答

1

我認爲你可以使用iText進行使用Java的pdf操作。它也支持阿拉伯語。

+0

我試圖iText的它創建一個PDF不能轉換爲文本如果您有任何ahelp給我 – moneera 2011-03-07 09:35:45

2

有幾個圖書館想到。 Apache Tika,iTextpdfbox將或多或少地解決您的問題。雖然,我必須爲Tika寫一個詞,因爲它支持語言檢測,並且也可以處理其他文檔類型。

+1

我想你提到的所有庫,他們不能解析阿拉伯語PDF,阿帕奇蒂卡解析阿拉伯語,但不所有的PDF文件,我認爲,PDF格式進行編碼或對其安全性我無法理解,因爲還當我要陰影的話就不能成功地遮蓋了,pleeeeeeeeeeeease幫我 – moneera 2011-03-07 09:34:34

+0

如果PDF文件已提取刪除文本的權利(這可以控制每個文件),沒有軟件將能夠幫助你。 一個PDF的當前設置可以打開在Adobe Reader中的按壓鍵Crtl-d的文件(或goning使用菜單文檔屬性)中找到。 – nfechner 2011-03-07 09:47:41

+0

thanx爲您提供幫助,但我想知道我應該在pdf屬性中更改哪些屬性以使其可供選擇? – moneera 2011-03-07 10:11:28