0
一個PDF文件的擴展名可以通過神奇的簽名進行驗證:25 50 44 46
如何檢測不同類型的PDF
不過,我想檢測PDF是否含有文本或圖像(即PDF是否包含文本,可以是用ctrl + f搜索是否包含掃描的文檔)
有沒有辦法做到這一點?
一個PDF文件的擴展名可以通過神奇的簽名進行驗證:25 50 44 46
如何檢測不同類型的PDF
不過,我想檢測PDF是否含有文本或圖像(即PDF是否包含文本,可以是用ctrl + f搜索是否包含掃描的文檔)
有沒有辦法做到這一點?
從技術上講,您可以解析PDF文檔結構並查找包含文本的元素。我想這需要付出很大努力才能實現。
所以你可能想要使用預製的PDF包來爲你解析(PDFBox,BfoPDF或類似的東西)。不過,我認爲這需要一些努力來實施。
我知道的最簡單的方法是使用可以爲您提取純文本的包。 Apache TIKA可以做到這一點。只要將它提供給文檔,看看你是否回來了。
在任何情況下,很難對包含圖像和文本的PDF進行分類。
iText,PDFBox和其他Java PDF庫也提供從PDF文件中提取文本或圖像的功能。使用這些功能之一,並找到一些標準,以便考慮在沒有OCR的情況下掃描的PDF(例如,頁面上不超過50個非空白字符,但至少有50%的頁面覆蓋有圖像)。 – mkl
這似乎是一種很好的技術。我會嘗試iText – Omnipresent