我試圖讓在Java中需要文字輸入文字處理應用程序。現在我從用戶指定的PDF文件中提取此輸入。我正在使用PdfBox進行文本提取。我遇到的問題是PDF文件可能包含表格,公式和特殊符號,因此PdfBox提取的文本在許多地方都包含垃圾。由於這個原因,我的文本處理應用程序無法給出最佳結果。我想知道PDF是否具有表格的特定格式,以便我可以進入根級別並在提取時排除它們。此外,在許多場合,提取的文本包含未知字符呈現爲'?'儘管在實際PDF中它們看起來是正常的字母。我也嘗試過其他圖書館--IText,但結果並不令人滿意。簡而言之,我想要的只是從PDF文件中提取簡單的句子,排除所有其他垃圾。如果有人能夠通過爲這個問題或另一個更好的Java提取庫提供解決方法來幫助我,那將是非常棒的。謝謝。忽略表,而PDF提取
0
A
回答
0
我最近需要從PDF中提取文本以便在Java中進一步處理 - 我使用了Linux命令pdftotext - 如果您有此命令可供您使用,那麼該選項是什麼?
編輯:剛剛看到另一篇文章今天關於Apache提卡 - 其中有一個PDF(和許多其他)解析器。可能對你有用。 http://tika.apache.org/
1
PDF沒有一個 '表' 的格式。表格由線條和文字構成,就這些。帶標籤的PDF可能有這樣的標籤,但這些都很少見。
相關問題
- 1. 提取選項而忽略了無
- 2. 忽略列表,而忽略上提交關於TFS
- 3. 忽略提示,而用戶在
- 4. 忽略提交TortoiseHg
- 5. 忽略Git提交
- 6. android:忽略提示
- 7. Ionic.Zip提取文件並忽略密碼
- 8. rVest:如何提取值(忽略兒童)
- 9. 更新表記錄,而忽略重複
- 10. 提交表單時忽略字段
- 11. 表單提交忽略url選項
- 12. 忽略儀表板提示的列
- 13. 觸摸表單忽略提交的值
- 14. 使用Matlab將Excel文件轉換爲PDF,而忽略比例
- 15. 抓取策略忽略
- 16. mysqldump忽略表不會忽略視圖
- 17. 忽略CDATA而XML解析
- 18. 忽略而Deserialisation使用newtonsoft
- 19. ,而忽略其他任何
- 20. 如何忽略,而R中
- 21. 忽略DTD而在Java
- 22. 取: '加入' 忽略
- 23. PDF表文字提取
- 24. 從PDF中提取表格
- 25. 將可見表單保存爲pdf,忽略隱藏表單
- 26. Git忽略了特定的目錄,而不是忽略或排除列表
- 27. 提示忽略where子句
- 28. guice忽略提供者?
- 29. pyPdf忽略PDF文件的換行符
- 30. iText Flying Saucer pdf頭和忽略html
感謝您的建議....我檢查出來,但看起來它給出了同樣的文字,因爲我開始使用PDFBOX,只是在HTML格式。另外,這對我來說並不有用,因爲我正在爲各種平臺創建Java應用程序,而不僅僅是Linux ......無論如何感謝您的建議。 – 2012-03-27 11:08:43