2011-05-17 40 views
1

我有以下問題:我有很多的PDF格式的文件,我必須從每個人的第一頁中提取信息,然後將其保存到數據庫全文解析挑戰

我只需要提取,標題,摘要,關鍵字,作者列表,大學列表,電子郵件。我想做一個腳本來爲每個字段獲取一個字符串,用於每篇論文。

我該怎麼做?有沒有人已經這樣做?你推薦我什麼語言和工具? 和是否存在已經完成數據庫饋送的紙庫?

考慮到pdf可能有不同的編碼,我也必須處理這個問題。任何幫助,這將是偉大的。

example of a paper its here

問候!

回答

1

http://pdfbox.apache.org/

你必須檢查有關PDF的安全性,它確實是文本,而不是圖像。檢查PDFBOX的命令行應用程序,如果它的工作原理提取文本,那麼你可以使用的jar和使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

希望它可以幫助....

通過它的Java的方式......

編輯。 我沒有使用這個作爲jar庫http://www.qoppa.com/pdftext/,但我使用的示例應用程序,它的工作原理,但我決定去pdfbox ...

+0

我一直在測試PDFBOX和它的作品真的很好,當腳本紅寶石,謝謝! – fespinozacast 2011-05-17 23:39:43