2013-05-07 73 views
0

我想問一個想想pdf的人。從PDF獲取數據到php/html/javascript

所以我想從pdf中得到一些數據,但只能指定數據。是否可以選擇從PDF中獲得什麼?

例如是這樣的形象,所以你可以看到,我想從PDF拿出數據: pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png

感謝

+0

您可以嘗試通過OCR或可能與此soloution使其:http://stackoverflow.com/questions/4780697/php-pdf-to-string – PKeidel 2013-05-07 18:46:07

+0

難道這些PDF的電腦製作或掃描? – 2013-05-07 18:49:59

+0

電腦製作的PDF – user2352034 2013-05-07 20:22:26

回答

0

這個問題觸摸的兩個主要過程:OCR和數據採集(或解析)

OCR代表光學字符識別。該過程將圖像轉換爲文本。如果您的PDF是僅限圖片的PDF(沒有文本層,如掃描,傳真,光柵化等),則必須使用這類軟件。如果您的PDF已經包含電子文本數據,您可能會跳過這一步。

智能數據定位和提取的數據捕獲標準,例如查找所有其他文本中的特定字段。有專門的軟件包和/或分析過程(見我以前的帖子here)。

如果所有的文檔都有相同的「區域」包含您的文本,您可以裁剪圖像,然後將較小的區域傳遞到OCR,這反過來會簡化您的文本提取邏輯(因爲處理的文本較少用)。

伊利亞

+0

你好,謝謝你的回答。我的PDF是電腦製作的,所以不會被掃描。 PDFs總是相同的,只是有些時候只有2-3個數字,有些時候有6-7行數字..所以,我不知道如何捕捉這個數字,不管有多少行.. – user2352034 2013-05-07 20:24:32

+1

計算機生成的PDF也可能是僅限圖片或具有文本層,取決於生成器。嘗試在Acrobat Reader中打開它並選擇或搜索某個值。如果你找到它或者可以選擇它,那麼你有文字層,'可以'可以跳過OCR部分。根本就不適合文本解析,因爲它們沒有格式化信息。如果你有一致性,那麼寫一個簡單的解析邏輯就可能在某些可預測的地方尋找數據類型。有時候,即使對於基於文本的PDF,我也會進行OCR +數據捕獲,因爲更容易與圖像對象配合使用。 – 2013-05-07 21:57:33

+0

如果你願意,給我一些不同的變化,我會測試我的工具。 ilya @ wisetrend.com – 2013-05-07 21:58:25