忽略表，而PDF提取

我試圖讓在Java中需要文字輸入文字處理應用程序。現在我從用戶指定的PDF文件中提取此輸入。我正在使用PdfBox進行文本提取。我遇到的問題是PDF文件可能包含表格，公式和特殊符號，因此PdfBox提取的文本在許多地方都包含垃圾。由於這個原因，我的文本處理應用程序無法給出最佳結果。我想知道PDF是否具有表格的特定格式，以便我可以進入根級別並在提取時排除它們。此外，在許多場合，提取的文本包含未知字符呈現爲'？'儘管在實際PDF中它們看起來是正常的字母。我也嘗試過其他圖書館--IText，但結果並不令人滿意。簡而言之，我想要的只是從PDF文件中提取簡單的句子，排除所有其他垃圾。如果有人能夠通過爲這個問題或另一個更好的Java提取庫提供解決方法來幫助我，那將是非常棒的。謝謝。忽略表，而PDF提取

來源

2012-03-27 Manan Pancholi