2012-06-11 148 views
0

如何從pdf文件中提取數據主要是數據表等這些東西是否有任何免費或開源工具可用於直接進行。我必須處理大量文件的從pdf中提取數據

回答

0

是的,你可以使用Lucene的3.X庫和PDFBOX 0.7

但是從PDF提取你不能得到轉化提取PDF文件中的文本在一定程度上一些圖片有的格式將被轉換成二進制和garabage代碼

但你可以得到純文本

File f = new File("filename"); 

FileInputStream fis=new FileInputStream(f); 

PDFParser parser=new PDFParser(fis); 

parser.parse(); 

PDDocument pd=parser.getPDDocument(); 

PDFTextStripper pst=new PDFTextStripper(); 

String pdftext=pst.getText(pd); 

對於您需要下載兩個jar文件 1)Lucene的核心 - 3.0.3罐子 2)PDFBOX-0.7.3罐子

我會幫你這個不用擔心

0

對於基本的文本提取,如果你有機會到命令行實用程序,嘗試pdftotextpdftohtml。您也可以使用strings命令。