我正在尋找一種簡單的解決方案來解析已上傳到我的應用的每個文件,並將其轉換爲簡單的文本。我的Web應用程序在Clojure上運行,並且更喜歡使用API來解析各種文件類型。Clojure - 將PDF/Doc文件解壓縮爲簡單文本的最佳方法
1
A
回答
3
看看apache poi,pdfbox和apache tika。
它們是用於處理各種文件格式的java庫。您可以直接在您的clojure應用程序中使用他們的Java API。
以下是來自apache tika網站的引用。
阿帕奇提卡™工具包檢測並提取元數據和文本從各種文件 內容 - 從PPT到CSV到PDF - 使用 現有的解析器庫。 Tika將這些解析器統一在一個單獨的界面下,使您可以輕鬆解析一千個不同的文件 類型。 Tika可用於搜索引擎索引,內容分析, 翻譯等等。
以下是來自pdfbox網站的引用。
Apache PDFBox™庫是一個開放源代碼的Java工具,用於在PDF文檔中工作 。該項目允許新的PDF文檔創建,現有文檔的 操作和從文檔中抽取
而且這裏的內容 的能力是從POI網站
報價對於若干年來, Apache POI爲所有項目支持的文件格式提供了基本文本 提取。另外,如 以及(普通)文本一樣,這些提供了對與給定文件(例如標題和作者)相關聯的元數據 的訪問。
相關問題
- 1. 將簡單文本壓縮爲文本
- 2. 壓縮.msi文件的最佳方法?
- 3. 解壓JavaScript文件的最佳方法
- 4. 使用zlib解壓縮.zip文件的簡單方法
- 5. iPhone上最簡單的方法來解壓縮下載的文件?
- 6. 在clojure中壓縮文件
- 7. 最簡單的方法來壓縮Python和解壓縮C#(反之亦然)
- 8. 解壓縮大型壓縮文件的更快方法
- 9. JSON或文本文件的最佳壓縮級別?
- 10. javascript文本壓縮/解壓
- 11. 在Java中壓縮現有文件的簡單方法?
- 12. 在zip壓縮文件中正確命名文件的最佳方法
- 13. 文本解析的最佳方法androidk
- 14. clojure:解壓縮存儲爲資源的zip文件
- 15. 簡單的文件壓縮C
- 16. 壓縮XML的最佳方法
- 17. Android設備的最佳壓縮方法
- 18. Python壓縮一個簡單的文本文件
- 19. 解壓縮文件
- 20. 解壓縮文件
- 21. 壓縮文件未解壓
- 22. 壓縮解壓縮的exe文件
- 23. png文件的壓縮和解壓縮
- 24. 解壓縮壓縮富文本字段
- 25. 在python中壓縮和解壓縮文本文件
- 26. 解壓縮(解壓縮)由.net壓縮(解壓縮)的文件.net system.io.compression.gzipstream
- 27. 在C#或C++中將壓縮的wav文件轉換爲未壓縮的wav文件最簡單的方法是什麼?
- 28. 如何將壓縮聲音文件轉換爲解壓縮文件
- 29. C#中文本文件解析的最佳方法?
- 30. 壓縮MP3聲音文件的最佳方式
謝謝約書亞。 Apache Tika能做到這一點! – 2014-12-05 11:32:33