在PDF文件中自動加粗整個文本

我收到了一組大的pdf文件（每個頁面大於1000頁），我想在這些文件中「自動」加粗整個文本（以便稍後執行OCR處理）。在PDF文件中自動加粗整個文本

我可以通過Adobe Acrobat Pro手動逐頁執行此任務。但是，我想知道是否可以通過工具自動完成或者編寫一段代碼？

PS：（！如果這樣的服務存在）這些PDF文件是私有的，它不容許他們上傳到在線服務

來源

2017-10-10 Derar Alhussein

我沒有確切的解決方案，但一個想法是將頁面轉換爲單個圖像，例如gimp。作爲處理這些圖像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel

有（據我所知）沒有很好的工具，在做這個一種100％失敗保險的方式。

問題是PDF不是一種簡單的格式。把它看作是指令的容器。單詞不會以連續字節出現在文檔中。他們看起來像說明：

將光標放在第10位，50
設置字體爲宋體，大小爲10
繪製字符串「H」
轉到位置14，50
繪製字符串「E」
等

如果要大膽你會遇到變種文本問題。

加粗文字可能會使其不再適合該行，這意味着您需要重新排版頁面。重新編排頁面非常困難。你需要知道哪些字符屬於一起，是什麼產生了一個段落，什麼使得一個標題，等等。否則你不能明智地移動內容。
加粗文本意味着您需要知道哪些文本已經是粗體。這也是不平凡的。字體有一個標誌，讓讀者知道他們是否大膽。但「大膽」的財產也可以通過其他方式實現。所以，無論你使用什麼工具，都需要能夠準確地確定一個給定的字形是否爲粗體，或者只需要在正常字體中對字符進行一些藝術性稍大膽的再現。

來源

2017-10-10 13:58:49

是跳出我的事情是，你要「以執行OCR處理後」要做到這一點。基於此，看起來您的真正目標並不是擁有一堆粗體文本 - 您的目標是能夠更好地在這組文檔上執行OCR。

如果這是真的，有些事情要記住：

加粗的文字不一定會使其更易於閱讀OCR處理 - 事實上，在某些情況下，可以把它少清晰。（也沒有自動的方法來確定它會對給定的文本頁面有什麼影響。）

包含文本（而不僅僅是文本頁面的圖像）的PDFs以一種可以以數字方式存儲文本的方式由PDF處理應用程序提取。以這種方式提取的文本幾乎總是比從OCR過程中得到的準確。

如果這些是'圖片PDF'的文本頁面充滿了圖像，您將無法輕鬆地將文本粗體顯示在首位，而不僅僅是您可以更改快照中的文本一個路標。（事實上，你必須首先對它進行OCR處理，以便能夠粗體顯示它。）

如果你想打印這些PDF文件以便它們可以在以後被掃描和OCR檢測，那麼你真的應該考慮使它們以電子方式提供。

簡而言之，與其側重於如何製作數千頁的文字粗體字，我會建議退後一步，看看你真正想要完成什麼。

來源

2017-10-10 19:50:43

請給我一些「PDF處理應用程序」的例子嗎？ –

在PDF文件中自動加粗整個文本

回答

相關問題