使用PDFBOX從PDF

提取文本近日編碼了錯誤的字符，我不得不索引PDF到ElasticSearch和使用PDFBOX來提取PDF文本，但我得到了編碼這樣使用PDFBOX從PDF

Ýëĭ2ĈjŬj§ė¥ 
1 ŋ?nĳ"2$ 2016£ 2Ú 5Õ,」Òªj§?ně#ĳ"2ě 
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê  
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS 
Õ¿ ĿSÖ¿ eöĿS&ØºĨĘ 
http://www.sse.com.cnLćĈ 
A$j§Ýëĭ2ĈŘĐ

我的代碼是錯誤的字符與此頁面上的說明完全相同here。我嘗試從0.8.x到2.0.x的pdfbox lib版本，但它仍然無法工作。

任何幫助或建議將不勝感激！

來源

2016-03-02 abu

對Adobe Reader有用嗎？你能分享PDF嗎？ –

這裏是我的[pdf]（http://111.203.34.66:8443/mnt/storage/stock/2016/02/24/e2a9227a3565f947271244ef2716ae09483a6559.pdf）。有關於如何用Adobe Reader拍攝這個問題的任何文檔？ – abu

我也沒有得到Adobe Reader的任何東西，除了幾個「2016」。請參閱https://pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。 –

我從@Tilman評論得到答案。

請參閱pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。

來源

2016-03-08 05:31:45 abu

最好是添加一些文本，而不是僅鏈接答案。 –

使用PDFBOX從PDF

回答

相關問題