0
我有幾個PDF文件具有如下跨越scatterred一些代碼(沒有固定的位置):基於一個PDF閱讀內容一些關鍵
oneCode=abcd
twoCode=4566
我想分析每一個PDF尋找鑰匙「oneCode」或「 twoCode「並從我的java程序中獲取相應的值。
這樣的功能是否可以在PDFBox等任何開源PDF解析器中使用?
任何一個請指出一個例子嗎?
此外,我的pdf可能是從大到小的不同大小,並且我可能需要從我的程序中解析數千個PDF。因此,解析完整的pdf然後從解析的文本中搜索密鑰可能會變得非常慢。
那麼是否有任何現有的功能可以幫助我的方案?
感謝您的閱讀!
那麼,顯然你必須解析完整的pdf(通常是以一頁一頁的方式),但是當你這樣做的時候,你可以搜索那些內容的鍵值對,然後用這些對的集合工作,而不是整個內容。 – mkl