如何從Objective-C的PDF頁面獲取文本?如何從PDF頁面獲取文本?
2
A
回答
2
這是用於iOS或OS X的嗎?如果對於OS X,您可以簡單地創建一個Automator工作流程來提取文本,並從您的應用程序調用該工作流程。 Automator具有PDF操作「Extract PDF Text」就是爲了這個目的。 Automator framework允許從你的應用程序調用automator動作。還有一些示例代碼可以在http://rogueamoeba.com/utm/2005/06/03/找到(請注意,實際代碼已經更新以使用Automator框架)。
4
首先 - 放棄任何用於解析PDF的「快速&髒」解決方案 - 它會失敗。我的同事花了很多時間在iOS上正確地解決這個問題。他的前3名(質量,降序)選項:
- muPDF(http://www.mupdf.com/)偉大的圖書館 - 它會做提取罰款。它在GPL下獲得許可,但這對於我們的專有應用來說是一個阻礙。
- 基於CGPDFScanner的自制解決方案。你可以找到如何做到這一點的簡短說明here。這種方法的主要問題是SDK本身 - 蘋果公司的PDF API非常嚴格(並且故意懷疑)是有限的。例如,您必須在2D空間中放置提取的文本塊,因爲PDF不能保證繪圖的順序與文本流相匹配,並且iOS SDK在這裏沒有什麼幫助。
- Poppler(http://poppler.freedesktop.org/)是可以的,但對於文本提取,它大致等同於第二個選項(具有大量額外的依賴關係)。
可以有更多的選項與Mac OS X,但我不知道他們。
+1
muPDF僅用於查看。 – Jamil 2016-03-21 10:52:40
相關問題
- 1. 如何從HTML頁面獲取PDF(UIWebView)
- 2. jQuery:如何從頁面獲取文本?
- 3. 如何從pdf頁面使用Zend_Pdf提取文本
- 4. Android-從PDF獲取文本
- 5. 如何從html頁面獲得pdf
- 6. 從SWF Offer中獲取PDF頁面Avis
- 7. 如何從html頁面提取文本?
- 8. 如何從html頁面提取文本?
- 9. 從html頁面獲取文本shell
- 10. 從多頁PDF集合中提取頁面級ASCII文本?
- 11. XPATH - 如何從網頁獲取文本?
- 12. 如何使用ABCPdf.NET從PDF文件的所有頁面中提取文本?
- 13. 從PDF文件中獲取純文本
- 14. 如何使用CAM :: PDF在PDF頁面中獲取文本字符串的文本方向?
- 15. 如何獲取pdf文檔中的頁面座標onclick
- 16. 如何使用jsoup從此html頁面獲取文本?
- 17. 如何從文本字段獲取值到前進頁面?
- 18. 如何從頁面獲取文本? Selenium,C#
- 19. 當我使用iText從PDF文件中提取文本時我從前面的頁面獲取值
- 20. PDF如何獲取文本的高度
- 21. 如何從網頁獲取文本到我們的本地html頁面?
- 22. 如何從doc或pdf文件中讀取特定頁面。
- 23. 如何從iOS上的pdf文件中提取給定頁面?
- 24. 如何獲取Google Apps腳本中PDF文件的頁數?
- 25. 從網頁獲取文本
- 26. 從網頁獲取文本
- 27. 如何從pdf文件獲取highligted word?
- 28. 從pdf中提取當前頁面的文本(使用MuPDF)
- 29. 蟒蛇 - 從PDF頁面明智提取文本列出
- 30. iphone從pdf頁面創建PDF文件
重複的問題。請參閱http://stackoverflow.com/questions/3287635/how-to-parse-pdf-in-objective-c-for-ipad – Avi 2012-02-24 08:36:17
那麼答案在哪裏呢? – demon9733 2012-02-24 08:38:15
@Avram這個問題與從PDF提取文本無關 – hoha 2012-02-24 08:39:27