2010-03-04 27 views
3

因此,我有一個.pdf文件,我需要能夠確定它是否通過掃描到PDF中來創建。我試圖確定它是否可以顯示爲文本或PDF格式。我的PHP & Zend在我的處置。 我想我也許能使用Zend的如何確定是否掃描.pdf文件的內容

$pdf->properties['Producer'] 

,但我不是100%肯定。

有什麼辦法可以確定我正在處理的是哪一種.pdf文件?

回答

3

聽起來很難。有大量不同的「生產者」ID,其中許多支持從任何種類的源生成PDF,無論是來自傳真,文字處理器還是其他類型的掃描。創建PDF文件有很多種方法,你永遠無法追溯從哪裏來的東西。

如果您想確定您是否可以將文本顯示爲文本,爲什麼不嘗試從文本中提取一些實際文本?如果它被掃描(或任何其他類型的嵌入式圖像),它應該沒有或只有很少的文本內容。但是,有一些OCR程序可以創建掃描的PDF,並且可以讀取機器可讀的文本。你想如何處理?

你的這個最終目標是什麼?

+0

我們提供了「查看文本」鏈接選項。當pdf是全部掃描的圖像時,我試圖隱藏這個選項(因此當看作文本時沒有任何東西出現) - Y我們的想法很有道理 - 我應該能夠將內容提取到變量中,然後在變量中搜索實際文本不知何故。我希望能夠以某種方式從pdf中獲得某些東西。 – Jason 2010-03-04 19:41:31

0

要確定PDF文件是否已被掃描,請使用Adobe Acrobat Reader打開它。

檢查您是否可以選擇文本,這表示文檔未被掃描。

enter image description here

但是,如果你嘗試選擇文本將恢復爲圖形選擇框,這表明該文件被掃描。

enter image description here

相關問題