因此,我有一個.pdf文件,我需要能夠確定它是否通過掃描到PDF中來創建。我試圖確定它是否可以顯示爲文本或PDF格式。我的PHP & Zend在我的處置。 我想我也許能使用Zend的如何確定是否掃描.pdf文件的內容
$pdf->properties['Producer']
,但我不是100%肯定。
有什麼辦法可以確定我正在處理的是哪一種.pdf文件?
因此,我有一個.pdf文件,我需要能夠確定它是否通過掃描到PDF中來創建。我試圖確定它是否可以顯示爲文本或PDF格式。我的PHP & Zend在我的處置。 我想我也許能使用Zend的如何確定是否掃描.pdf文件的內容
$pdf->properties['Producer']
,但我不是100%肯定。
有什麼辦法可以確定我正在處理的是哪一種.pdf文件?
聽起來很難。有大量不同的「生產者」ID,其中許多支持從任何種類的源生成PDF,無論是來自傳真,文字處理器還是其他類型的掃描。創建PDF文件有很多種方法,你永遠無法追溯從哪裏來的東西。
如果您想確定您是否可以將文本顯示爲文本,爲什麼不嘗試從文本中提取一些實際文本?如果它被掃描(或任何其他類型的嵌入式圖像),它應該沒有或只有很少的文本內容。但是,有一些OCR程序可以創建掃描的PDF,並且可以讀取機器可讀的文本。你想如何處理?
你的這個最終目標是什麼?
我們提供了「查看文本」鏈接選項。當pdf是全部掃描的圖像時,我試圖隱藏這個選項(因此當看作文本時沒有任何東西出現) - Y我們的想法很有道理 - 我應該能夠將內容提取到變量中,然後在變量中搜索實際文本不知何故。我希望能夠以某種方式從pdf中獲得某些東西。 – Jason 2010-03-04 19:41:31