2016-02-13 65 views
0

我正在嘗試將pdf轉換爲Flint water crisis emails from Gov. Snyder的文本。基本上他們有從Outlook打印的20k +電子郵件頁面,然後以.pdf的形式掃描。 (我知道,令人討厭。)我已經嘗試過各種工具,如Tesseract(直接和將Image.png轉換爲.tif與ImageMagik後),我只是得到一堆gobbledeegook。將pdf轉換爲txt

有沒有人有任何其他建議如何處理這些文件?我可以在Acrobat Reader中打開它們並複製所有文本,但結果很差,格式不一致,因此編寫一個腳本來清理它非常具有挑戰性。

在此先感謝!

+0

備案時,一個免費軟件/開源工具將是首選,因爲我自己做這件事。 –

回答

1

OCR的質量直接取決於圖像質量,文檔格式和佈局以及所使用的OCR技術的質量和正確配置。隨着文檔複雜性的增加,通常您將從免費的OCR轉向更強大的商業解決方案,以實現更高的OCR結果。如果您需要格式保存,那麼僅存在於少數商業OCR應用程序中。任何一家主要的OCR提供商都是您的答案。

考慮使用OCR-IT基於Web的API(www.ocr-it.com)進行此轉換。 /市場上最高質量的OCR之一。我是該系統的原始開發人員之一,我們的目標是實現市場上的頂級質量。另外,如果這種轉換是爲了一個好的原因和人們的利益,由一個非營利組織,一個非商業項目,或者只是一個善意的個人項目,我的朋友和我想要幫助。我們自願提供免費的大容量轉換。我們提供我們的技能和高質量的OCR軟件,以換取非貨幣補償,例如在您的項目中提及,向我們分享關於我們的信息,傳播有關我們的商譽等信息。

+0

剛發給你一封電子郵件... –