2012-02-04 84 views
0

是否有免費的OCR庫,可以提取文本以及檢測文本上的某些標記?我意識到這是一個非常模糊的命題,這樣的功能將高度依賴於我想要檢測的「標記」的類型。OCR文本+標記

但據我所知,除了一些商業軟件包,它們聲稱將掃描的頁面轉換爲可編輯的文件,同時保留原始頁面佈局的某些外表之外,還存在這樣的情況。我正在尋找一個我編程的圖書館。

我國這樣一個圖書館的具體應用會是這樣:

  1. 打印的頁面。
  2. 使用鉛筆在關鍵詞下劃線。
  3. 掃描頁面。
  4. 運行程序將掃描的頁面圖像轉換爲標記每個帶下劃線的單詞的文本格式。例如,一個RTF文件,其中每個鉛筆加下劃線的單詞都用粗體顯示。
+0

您確定要使用OCR嗎?如果你有原始文件給你,我認爲這打開了更簡單的場地... – Jasper 2012-02-04 23:24:30

+0

你的意思是人類的手?當然,但我在問自動功能。 – themirror 2012-02-08 02:05:22

+0

不,我的意思是,如果您有_original digital document_ available(您正在討論打印它),則可以自動執行更簡單的操作。 – Jasper 2012-02-09 11:44:23

回答

0

最好的免費OCR工具可能還是Tesseract。您必須親自修改代碼才能確定相對於掃描文本的標記定位。

當我上次檢查幾年前的好的免費的OCR庫時,地面上很薄。即使封閉源碼產品通常也不值得費心,除非你想在它們身上花費$$$。