2013-08-27 37 views
1

我必須處理PDF文件。 Bigdata中有沒有工具可以處理我的pdf文檔(半結構化數據)?例如 .. 如果我的PDF文檔包含摘要或動作等任何主題,那麼我必須檢索那些沒有任何頁腳的段落。 現在我正在使用pdfBox & java API來提取我的pdf文檔,但是有沒有任何bigdata工具可以做同樣的提取?是否有任何Bigdata工具來處理PDF文件

回答

0

我不知道有一種工具可以執行您想要執行的操作,但如果您可以設置Hadoop集羣(或使用Amazon AWS服務),那麼您可以輕鬆使用Hadoop流式傳輸來傳遞PDF文檔一個用戶定義的程序(你在java中應該可以正常工作)。

this earlier SO question中有一個很好的示例,說明如何在定製的Java程序中使用Hadoop流。

相關問題