2013-06-20 89 views
0

一個PDF文件的擴展名可以通過神奇的簽名進行驗證:25 50 44 46如何檢測不同類型的PDF

不過,我想檢測PDF是否含有文本或圖像(即PDF是否包含文本,可以是用ctrl + f搜索是否包含掃描的文檔)

有沒有辦法做到這一點?

+1

iText,PDFBox和其他Java PDF庫也提供從PDF文件中提取文本或圖像的功能。使用這些功能之一,並找到一些標準,以便考慮在沒有OCR的情況下掃描的PDF(例如,頁面上不超過50個非空白字符,但至少有50%的頁面覆蓋有圖像)。 – mkl

+0

這似乎是一種很好的技術。我會嘗試iText – Omnipresent

回答

1

從技術上講,您可以解析PDF文檔結構並查找包含文本的元素。我想這需要付出很大努力才能實現。

所以你可能想要使用預製的PDF包來爲你解析(PDFBox,BfoPDF或類似的東西)。不過,我認爲這需要一些努力來實施。

我知道的最簡單的方法是使用可以爲您提取純文本的包。 Apache TIKA可以做到這一點。只要將它提供給文檔,看看你是否回來了。

在任何情況下,很難對包含圖像和文本的PDF進行分類。