2013-05-15 47 views
3

我們在服務器上有數百個PDF文件。其中一些包含可搜索的文本,而另一些則不包含。確定PDF文件是否具有PHP中的可搜索文本

我被問到找出哪些是可搜索的,哪些不是。

有誰知道一種方式來閱讀一堆PDF文件,並確定該PDF文檔是否包含可搜索/可選文本,或者如果pdf僅包含需要OCRd的非可選/可搜索文本?

我甚至不需要真正閱讀文本;我只需要能夠通過標籤或關鍵字來檢測,這表明在原始數據中有字體或類似的東西。

在可檢索的PDF中是否有標籤可以很容易檢測?

感謝

+1

有相當多的圖書館來創建PDF文件,但在PHP中讀取它們,而不是很多。我會說使用第三方程序(也許pdftotext?)來提取文本將是你最好的選擇。 – hank

+0

這是一個很好的問題:-)我會嘗試尋找一些文本,例如搜索一個空間左右,但這個問題肯定會得到一個更長的思路 –

+0

我不認爲PHP是這個任務的正確工具。 – Spudley

回答