我想從一個巨大的pdf文件[50MB]中提取所有關鍵字? 哪個模塊適合大型pdf文件解析? 我關心內存解析大文件&幾乎提取所有關鍵字! 這裏我想要SAX類型的解析[一個去解析] &不是DOM類型[與XML類比]。哪個模塊能夠一次性解析.pdf文件? CAM :: PDF或PDF :: API2
3
A
回答
1
要從PDF中讀取文本,我們使用CAM::PDF
,它工作得很好。在一些大文件上速度並不是很快,但處理大文件的能力並不差。我們當然有幾個是〜100Mb,並且處理得很好。如果我回想起來,我們在32位(Windows)Perl上只有130Mb的努力,但當時我們在內存中有很多其他東西。我們看過PDF::API2
,但它似乎更傾向於生成從中讀取的PDF。我們沒有將大文件放入PDF::API2
,所以我不能給出真正的基準數字。
我們使用CAM::PDF
發現的唯一重大缺點是PDF 1.6變得越來越普遍,而且在CAM :: PDF中完全不起作用。這對你來說可能不是問題,但可能需要考慮。
在回答你的問題時,我非常肯定這兩個模塊都會以一種或另一種形式將整個源代碼PDF閱讀到內存中,但我認爲CAM::PDF
不會構建更多更復雜的結構。因此,兩者都不是真正的SAX,但CAM::PDF
似乎一般較輕,並且可以一次檢索一頁,所以可以減少提取非常大的文本的負擔。
相關問題
- 1. 如何使用perl(CAM :: PDF,PDF :: API2)來移動PDF頁面?
- 2. 使用PDF合併2 pdf文件:API2
- 3. PDF :: API2:設置PDF標籤
- 4. 解析pdf文件
- 5. 解析PDF文件
- 6. 解析PDF文件
- 7. 如何使用Perl CAM :: PDF模塊來呈現PDF
- 8. 使用perl模塊創建PDF時壓縮錯位PDF :: API2
- 9. PDF-API2不能實施
- 10. 如何使用PDFMARK和/或PERL cpan模塊PDF :: API2創建PDF表單?
- 11. 如何使用Perl和CAM :: PDF閱讀PDF文檔屬性?
- 12. 使用CAM :: PDF庫
- 13. 在perl CAM中閱讀pdf :: PDF
- 14. 如何使用PDF :: API2將幾個pdf合併爲一個Perl?
- 15. 解析PDF文件 - NO OCR
- 16. PDF解析文件尾
- 17. 解析PDF一行
- 18. 解析PDF C#
- 19. 在perl中解析pdf
- 20. Perl的PDF :: API2和Unicode
- 21. 如何在Perl的CAM :: PDF中使用PDF 1.6文檔?
- 22. PDF :: API2不能寫入頁面
- 23. 如何使用PDF :: API2基於書籤拆分多文檔PDF基於書籤的PDF :: API2
- 24. 解析PDF文檔的JavaScript
- 25. PDF解析特定文本
- 26. 從PDF解析文本Java
- 27. pdf工具來分析PDF屬性
- 28. Perl CAM :: PDF分裂文字不正確
- 29. 用ABCPDF解析PDF
- 30. Php - pdf解析器
您是否嘗試過在標題中列出的模塊?你做了一個或另一個更好嗎? – Mat 2011-05-18 06:41:37
不能這樣!我只用了CAM :: PDF。 – 2011-05-18 06:48:59
那麼爲什麼你不試試另一個,看看它是否適合更好? – Mat 2011-05-18 06:50:11