2016-03-02 134 views
0

提取文本近日編碼了錯誤的字符,我不得不索引PDF到ElasticSearch和使用PDFBOX來提取PDF文本,但我得到了編碼這樣使用PDFBOX從PDF

Ýëĭ2ĈjŬj§ė¥ 
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,」Òªj§?ně#ij"2ě 
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê  
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS 
Õ¿ ĿSÖ¿ eöĿS&غĨĘ 
http://www.sse.com.cnLćĈ 
A$j§Ýëĭ2ĈŘĐ 

我的代碼是錯誤的字符與此頁面上的說明完全相同here。我嘗試從0.8.x到2.0.x的pdfbox lib版本,但它仍然無法工作。

任何幫助或建議將不勝感激!

+1

對Adobe Reader有用嗎?你能分享PDF嗎? –

+0

這裏是我的[pdf](http://111.203.34.66:8443/mnt/storage/stock/2016/02/24/e2a9227a3565f947271244ef2716ae09483a6559.pdf)。有關於如何用Adobe Reader拍攝這個問題的任何文檔? – abu

+0

我也沒有得到Adobe Reader的任何東西,除了幾個「2016」。請參閱https://pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。 –

回答

0

我從@Tilman評論得到答案。

請參閱pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。

+0

最好是添加一些文本,而不是僅鏈接答案。 –