2013-10-15 19 views
0

我有幾個PDF文件具有如下跨越scatterred一些代碼(沒有固定的位置):基於一個PDF閱讀內容一些關鍵

oneCode=abcd 
twoCode=4566 

我想分析每一個PDF尋找鑰匙「oneCode」或「 twoCode「並從我的java程序中獲取相應的值。

這樣的功能是否可以在PDFBox等任何開源PDF解析器中使用?

任何一個請指出一個例子嗎?

此外,我的pdf可能是從大到小的不同大小,並且我可能需要從我的程序中解析數千個PDF。因此,解析完整的pdf然後從解析的文本中搜索密鑰可能會變得非常慢。

那麼是否有任何現有的功能可以幫助我的方案?

感謝您的閱讀!

+0

那麼,顯然你必須解析完整的pdf(通常是以一頁一頁的方式),但是當你這樣做的時候,你可以搜索那些內容的鍵值對,然後用這些對的集合工作,而不是整個內容。 – mkl

回答

0

我不認爲你可以做的比線性搜索更快。只是排序或索引操作至少需要O(n)次序,所以即使有快速索引搜索的讀者,他們也需要一些預處理時間。

您需要找到一個能夠將數據快速傳輸到內存的閱讀器,以便您可以快速讀取數據。