Q

使用ROR解析PDF文檔

2013-10-29 85 views 1 likes

1

尋找一種將PDF解析爲純文本的方法。我發現使用Ruby進行PDF解析之前已經被問過，但答案已經過去幾年了，並且不適合用於Rails應用程序。使用ROR解析PDF文檔

有沒有一種寶石可以幫助這個？

2013-10-29 CoolTapes

+0

「問題，要求我們建議或找到一個工具，庫或喜愛的異地資源是題外話堆棧溢出，因爲他們往往以吸引自以爲是的答案，垃圾郵件，而是描述問題以及到目前爲止解決問題所做的工作。「 –

A

回答

2

這就是docsplit gem的全部內容。用例：

pdfs = Dir['storage/originals/*.pdf'] 
Docsplit.extract_text(pdfs, :ocr => false)

用這種寶石請告訴我偉大，是因爲它可以轉換.doc或.odt等等來獲取文本。

加上它是一個非常專業的公司的支持：http://www.documentcloud.org/

2013-10-29 12:56:03 apneadiving

+3

最後一行聽起來像一個廣告。我建議刪除它。 –

+1

好吧，文檔雲，也就是Jeremy Ashkenas，做了docsplit，coffeescript和主幹，聽起來相當不錯...只是承認已完成的工作 – apneadiving

+1

瞭解參考業務依賴於寶石是質量的一個重要標誌，或者至少是我感覺就像是 – apneadiving

0

This似乎很有名。我沒有嘗試過，但似乎相關。

2013-10-29 12:55:29

相關問題

11. 用DSL解析文檔
12. 用Scrapy解析文檔
13. 用Javascript解析xml文檔
14. 用Java解析XML文檔
15. 使用simplexml_load_string解析XML文檔STREAM
16. 使用XPath解析XML文檔
17. 如何使用Nokogiri解析XML文檔？
18. 使用NekoHTML解析html文檔
19. 使用Java解析文檔結構
20. 解析XML文檔使用XPATH？
21. 使用cTAKES解析臨牀文檔
22. 使用.Descendents解析XML文檔（值）
23. 使用lift-json解析文檔片段
24. 使用Ruby循環解析XML文檔
25. 如何使用xmlreader解析此文檔？
26. 使用PHP解析HTML文檔
27. 如何使用c解析html文檔＃
28. 使用JTree的解析的XML文檔
29. 使用HtmlAgilityPack-Xpath解析HTML文檔，RegExp
30. 使用JScience解析mathml文檔