0
我有同樣的問題從pdf文件中提取阿拉伯文本, 任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次,但沒有結果。pdf解析爲文本使用java
我有同樣的問題從pdf文件中提取阿拉伯文本, 任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次,但沒有結果。pdf解析爲文本使用java
有幾件事情,可能出錯,而從PDF中提取文本:
查看this question瞭解更多信息。
您的程序是否需要直接從pdf中提取文本?如果沒有,你可以使用ocr將pdf轉換爲文本並從txt文件中讀取它。 – Mr1159pm
*「我有同樣的問題..」*究竟是什麼問題? –
我用PDFBox提取文本的效果非常好。通常比圖書館更好,但是很多PDF不能以一種明智的線性方式存儲文本,這使得從文本中自動提取可讀文本成爲不可能。 (但是我沒有阿拉伯語的經驗)。您確定您擁有的文字實際上是文字,而不是PDF內嵌的圖像嗎? – RoToRa