2010-10-14 93 views
-1

我有這樣一個PDF:解析PDF文件

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7 
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4 
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5 

http://i.stack.imgur.com/hbXg2.png

,我需要解析它。我的意思是第4欄,添加第3欄,併發一封電子郵件地址。例如,第一行:[email protected]

我試圖將它複製到Google文檔中,但它只是在一個單元格中對齊而不是多個單元格。

我真的不知道該怎麼辦。我想正則表達式可以幫助我,但什麼?

+4

什麼語言? – 2010-10-14 15:37:16

+0

以及我只知道PHP ... – 2010-10-15 18:33:30

回答

0

我之前使用Aspose來解析PDF/Word文檔/ Excel文檔/和其他一些文檔。我不確定在PDF中解析表格時它們的功能如何,但如果他們有某些東西,我不會感到驚訝。

我開始看着它們,但被警告:他們有一個unapologetically小便窮人的方法來更新他們的庫。我不得不重寫代碼,因爲它們在發佈新版本時會顯示DROP功能。沒有棄用,只是走了。這就是說他們的支持是可以的,而且工具集非常強大。

我知道他們有.NET和Java的庫。除此之外,我不能說。

1

如果是Java iText,如果是C#iTextSharp,則兩者均爲非商業用途。

+2

這兩個都是免費的_non商業use_。 http://itextpdf.com/terms-of-use/ – Oded 2010-10-14 15:58:48

+0

編輯...好點 – 2010-10-14 16:11:32

0

如果在PHP中,你可以使用

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text, 

然後

$text = implode($outputAsArray,"\n"); //to have the output as text 

那麼的preg_replace是你的朋友。

0

您無法確定PDF文件中是否有可見的結構。您確實需要使用提取工具。我寫了一篇文章,解釋什麼格式實際上是在PDF文件中http://www.jpedal.org/PDFblog/?p=228