2013-10-29 85 views
1

尋找一種將PDF解析爲純文本的方法。我發現使用Ruby進行PDF解析之前已經被問過,但答案已經過去幾年了,並且不適合用於Rails應用程序。使用ROR解析PDF文檔

有沒有一種寶石可以幫助這個?

+0

「問題,要求我們建議或找到一個工具,庫或喜愛的異地資源是題外話堆棧溢出,因爲他們往往以吸引自以爲是的答案,垃圾郵件,而是描述問題以及到目前爲止解決問題所做的工作。「 –

回答

2

這就是docsplit gem的全部內容。用例:

pdfs = Dir['storage/originals/*.pdf'] 
Docsplit.extract_text(pdfs, :ocr => false) 

用這種寶石請告訴我偉大,是因爲它可以轉換.doc.odt等等來獲取文本。

加上它是一個非常專業的公司的支持:http://www.documentcloud.org/

+3

最後一行聽起來像一個廣告。我建議刪除它。 –

+1

好吧,文檔雲,也就是Jeremy Ashkenas,做了docsplit,coffeescript和主幹,聽起來相當不錯...只是承認已完成的工作 – apneadiving

+1

瞭解參考業務依賴於寶石是質量的一個重要標誌,或者至少是我感覺就像是 – apneadiving

0

This似乎很有名。我沒有嘗試過,但似乎相關。