2017-10-10 35 views
1

我收到了一組大的pdf文件(每個頁面大於1000頁),我想在這些文件中「自動」加粗整個文本(以便稍後執行OCR處理) 。在PDF文件中自動加粗整個文本

我可以通過Adobe Acrobat Pro手動逐頁執行此任務。但是,我想知道是否可以通過工具自動完成或者編寫一段代碼?

PS:(!如果這樣的服務存在)這些PDF文件是私有的,它不容許他們上傳到在線服務

+0

我沒有確切的解決方案,但一個想法是將頁面轉換爲單個圖像,例如gimp。作爲處理這些圖像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel

回答

0

有(據我所知)沒有很好的工具,在做這個一種100%失敗保險的方式。

問題是PDF不是一種簡單的格式。把它看作是指令的容器。單詞不會以連續字節出現在文檔中。他們看起來像說明:

  1. 將光標放在第10位,50
  2. 設置字體爲宋體,大小爲10
  3. 繪製字符串 「H」
  4. 轉到位置14,50
  5. 繪製字符串「E」

如果要大膽你會遇到變種文本問題。

  • 加粗文字可能會使其不再適合該行,這意味着您需要重新排版頁面。重新編排頁面非常困難。你需要知道哪些字符屬於一起,是什麼產生了一個段落,什麼使得一個標題,等等。否則你不能明智地移動內容。
  • 加粗文本意味着您需要知道哪些文本已經是粗體。這也是不平凡的。字體有一個標誌,讓讀者知道他們是否大膽。但「大膽」的財產也可以通過其他方式實現。所以,無論你使用什麼工具,都需要能夠準確地確定一個給定的字形是否爲粗體,或者只需要在正常字體中對字符進行一些藝術性稍大膽的再現。
0

是跳出我的事情是,你要「以執行OCR處理後」要做到這一點。基於此,看起來您的真正目標並不是擁有一堆粗體文本 - 您的目標是能夠更好地在這組文檔上執行OCR。

如果這是真的,有些事情要記住:

  • 加粗的文字不一定會使其更易於閱讀OCR處理 - 事實上,在某些情況下,可以把它清晰。 (也沒有自動的方法來確定它會對給定的文本頁面有什麼影響。)
  • 包含文本(而不僅僅是文本頁面的圖像)的PDFs以一種可以以數字方式存儲文本的方式由PDF處理應用程序提取。以這種方式提取的文本幾乎總是比從OCR過程中得到的準確。
  • 如果這些'圖片PDF'的文本頁面充滿了圖像,您將無法輕鬆地將文本粗體顯示在首位,而不僅僅是您可以更改快照中的文本一個路標。 (事實上​​,你必須首先對它進行OCR處理,以便能夠粗體顯示它。)
  • 如果你想打印這些PDF文件以便它們可以在以後被掃描和OCR檢測,那麼你真的應該考慮使它們以電子方式提供。

簡而言之,與其側重於如何製作數千頁的文字粗體字,我會建議退後一步,看看你真正想要完成什麼。

+0

請給我一些「PDF處理應用程序」的例子嗎? –