全文解析挑戰

我有以下問題：我有很多的PDF格式的文件，我必須從每個人的第一頁中提取信息，然後將其保存到數據庫全文解析挑戰

我只需要提取，標題，摘要，關鍵字，作者列表，大學列表，電子郵件。我想做一個腳本來爲每個字段獲取一個字符串，用於每篇論文。

我該怎麼做？有沒有人已經這樣做？你推薦我什麼語言和工具？和是否存在已經完成數據庫饋送的紙庫？

考慮到pdf可能有不同的編碼，我也必須處理這個問題。任何幫助，這將是偉大的。

問候！

你必須檢查有關PDF的安全性，它確實是文本，而不是圖像。檢查PDFBOX的命令行應用程序，如果它的工作原理提取文本，那麼你可以使用的jar和使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

希望它可以幫助....

通過它的Java的方式......

編輯。我沒有使用這個作爲jar庫http://www.qoppa.com/pdftext/，但我使用的示例應用程序，它的工作原理，但我決定去pdfbox ...

2011-05-17 21:27:14 jjchiw

我一直在測試PDFBOX和它的作品真的很好，當腳本紅寶石，謝謝！ – fespinozacast 2011-05-17 23:39:43