我收到了一組大的pdf文件(每個頁面大於1000頁),我想在這些文件中「自動」加粗整個文本(以便稍後執行OCR處理) 。在PDF文件中自動加粗整個文本
我可以通過Adobe Acrobat Pro手動逐頁執行此任務。但是,我想知道是否可以通過工具自動完成或者編寫一段代碼?
PS:(!如果這樣的服務存在)這些PDF文件是私有的,它不容許他們上傳到在線服務
我收到了一組大的pdf文件(每個頁面大於1000頁),我想在這些文件中「自動」加粗整個文本(以便稍後執行OCR處理) 。在PDF文件中自動加粗整個文本
我可以通過Adobe Acrobat Pro手動逐頁執行此任務。但是,我想知道是否可以通過工具自動完成或者編寫一段代碼?
PS:(!如果這樣的服務存在)這些PDF文件是私有的,它不容許他們上傳到在線服務
有(據我所知)沒有很好的工具,在做這個一種100%失敗保險的方式。
問題是PDF不是一種簡單的格式。把它看作是指令的容器。單詞不會以連續字節出現在文檔中。他們看起來像說明:
如果要大膽你會遇到變種文本問題。
是跳出我的事情是,你要「以執行OCR處理後」要做到這一點。基於此,看起來您的真正目標並不是擁有一堆粗體文本 - 您的目標是能夠更好地在這組文檔上執行OCR。
如果這是真的,有些事情要記住:
簡而言之,與其側重於如何製作數千頁的文字粗體字,我會建議退後一步,看看你真正想要完成什麼。
請給我一些「PDF處理應用程序」的例子嗎? –
我沒有確切的解決方案,但一個想法是將頁面轉換爲單個圖像,例如gimp。作爲處理這些圖像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel