回答
這就是docsplit gem的全部內容。用例:
pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)
用這種寶石請告訴我偉大,是因爲它可以轉換.doc
或.odt
等等來獲取文本。
加上它是一個非常專業的公司的支持:http://www.documentcloud.org/
最後一行聽起來像一個廣告。我建議刪除它。 –
好吧,文檔雲,也就是Jeremy Ashkenas,做了docsplit,coffeescript和主幹,聽起來相當不錯...只是承認已完成的工作 – apneadiving
瞭解參考業務依賴於寶石是質量的一個重要標誌,或者至少是我感覺就像是 – apneadiving
This似乎很有名。我沒有嘗試過,但似乎相關。
- 1. 使用PHP解析PDF文檔
- 2. 解析PDF文檔的JavaScript
- 3. FPDI PDF解析器在文檔
- 4. 使用IBM Watson文檔轉換器解析PDF
- 5. 解析pdf文件
- 6. 解析PDF文件
- 7. 解析PDF文件
- 8. pdf解析爲文本使用java
- 9. 使用apache駱駝解析pdf文件
- 10. 使用Apache PDFBox解析PDF文件
- 11. 用DSL解析文檔
- 12. 用Scrapy解析文檔
- 13. 用Javascript解析xml文檔
- 14. 用Java解析XML文檔
- 15. 使用simplexml_load_string解析XML文檔STREAM
- 16. 使用XPath解析XML文檔
- 17. 如何使用Nokogiri解析XML文檔?
- 18. 使用NekoHTML解析html文檔
- 19. 使用Java解析文檔結構
- 20. 解析XML文檔使用XPATH?
- 21. 使用cTAKES解析臨牀文檔
- 22. 使用.Descendents解析XML文檔(值)
- 23. 使用lift-json解析文檔片段
- 24. 使用Ruby循環解析XML文檔
- 25. 如何使用xmlreader解析此文檔?
- 26. 使用PHP解析HTML文檔
- 27. 如何使用c解析html文檔#
- 28. 使用JTree的解析的XML文檔
- 29. 使用HtmlAgilityPack-Xpath解析HTML文檔,RegExp
- 30. 使用JScience解析mathml文檔
「問題,要求我們建議或找到一個工具,庫或喜愛的異地資源是題外話堆棧溢出,因爲他們往往以吸引自以爲是的答案,垃圾郵件,而是描述問題以及到目前爲止解決問題所做的工作。「 –