我正在嘗試將pdf轉換爲Flint water crisis emails from Gov. Snyder的文本。基本上他們有從Outlook打印的20k +電子郵件頁面,然後以.pdf的形式掃描。 (我知道,令人討厭。)我已經嘗試過各種工具,如Tesseract(直接和將Image.png轉換爲.tif與ImageMagik後),我只是得到一堆gobbledeegook。將pdf轉換爲txt
有沒有人有任何其他建議如何處理這些文件?我可以在Acrobat Reader中打開它們並複製所有文本,但結果很差,格式不一致,因此編寫一個腳本來清理它非常具有挑戰性。
在此先感謝!
備案時,一個免費軟件/開源工具將是首選,因爲我自己做這件事。 –