2012-03-27 82 views
0

我試圖讓在Java中需要文字輸入文字處理應用程序。現在我從用戶指定的PDF文件中提取此輸入。我正在使用PdfBox進行文本提取。我遇到的問題是PDF文件可能包含表格,公式和特殊符號,因此PdfBox提取的文本在許多地方都包含垃圾。由於這個原因,我的文本處理應用程序無法給出最佳結果。我想知道PDF是否具有表格的特定格式,以便我可以進入根級別並在提取時排除它們。此外,在許多場合,提取的文本包含未知字符呈現爲'?'儘管在實際PDF中它們看起來是正常的字母。我也嘗試過其他圖書館--IText,但結果並不令人滿意。簡而言之,我想要的只是從PDF文件中提取簡單的句子,排除所有其他垃圾。如果有人能夠通過爲這個問題或另一個更好的Java提取庫提供解決方法來幫助我,那將是非常棒的。謝謝。忽略表,而PDF提取

回答

0

我最近需要從PDF中提取文本以便在Java中進一步處理 - 我使用了Linux命令pdftotext - 如果您有此命令可供您使用,那麼該選項是什麼?

編輯:剛剛看到另一篇文章今天關於Apache提卡 - 其中有一個PDF(和許多其他)解析器。可能對你有用。 http://tika.apache.org/

+0

感謝您的建議....我檢查出來,但看起來它給出了同樣的文字,因爲我開始使用PDFBOX,只是在HTML格式。另外,這對我來說並不有用,因爲我正在爲各種平臺創建Java應用程序,而不僅僅是Linux ......無論如何感謝您的建議。 – 2012-03-27 11:08:43

1

PDF沒有一個 '表' 的格式。表格由線條和文字構成,就這些。帶標籤的PDF可能有這樣的標籤,但這些都很少見。