Q

基於一個PDF閱讀內容一些關鍵

java
pdf

2013-10-15 19 views 0 likes

0

我有幾個PDF文件具有如下跨越scatterred一些代碼（沒有固定的位置）：基於一個PDF閱讀內容一些關鍵

oneCode=abcd 
twoCode=4566

我想分析每一個PDF尋找鑰匙「oneCode」或「 twoCode「並從我的java程序中獲取相應的值。

這樣的功能是否可以在PDFBox等任何開源PDF解析器中使用？

任何一個請指出一個例子嗎？

此外，我的pdf可能是從大到小的不同大小，並且我可能需要從我的程序中解析數千個PDF。因此，解析完整的pdf然後從解析的文本中搜索密鑰可能會變得非常慢。

那麼是否有任何現有的功能可以幫助我的方案？

感謝您的閱讀！

2013-10-15 Nik

+0

那麼，顯然你必須解析完整的pdf（通常是以一頁一頁的方式），但是當你這樣做的時候，你可以搜索那些內容的鍵值對，然後用這些對的集合工作，而不是整個內容。 – mkl

A

回答

0

我不認爲你可以做的比線性搜索更快。只是排序或索引操作至少需要O（n）次序，所以即使有快速索引搜索的讀者，他們也需要一些預處理時間。

您需要找到一個能夠將數據快速傳輸到內存的閱讀器，以便您可以快速讀取數據。

2013-10-15 15:38:27 Jason

相關問題

11. 排序基於一個關鍵
12. 閱讀兩個關鍵字
13. Solr pdf索引 - 只做一些內容
14. 閱讀內容
15. 閱讀內容
16. 閱讀內容
17. 閱讀內容
18. 編碼一個iOS PDF閱讀器
19. 閱讀PDF註釋內容「結果視圖」內容C＃
20. 關於多邊形算法的一些很好的閱讀
21. 筏：關於閱讀的一些問題只查詢
22. 創建一個易於閱讀的diff文件的PDF
23. Ruby閱讀編碼爲「GB2313」的網頁，如何檢查內容是否包含一些關鍵字？
24. 添加一個關鍵只基於一個if語句
25. 閱讀JPanel內容
26. 閱讀url內容
27. httpmessagehandler - 閱讀內容
28. 基於另一個JComboBox的內容的動態JComboBox內容
29. 閱讀yaml文件的第一個鍵
30. 閱讀內容（XML）於Android的WebView