2014-01-09 53 views
0

我有一系列的圖像和可用的tiff,jpeg和pdf文件。事先轉錄的OCR糾正?

許多已被抄錄和轉錄檢查的準確性。

我想創建PDF文件,不知道是否有到OCR圖像和糾正經檢驗記錄或以一種方式在OCR過程期間「插入」驗證轉錄?

我有機會獲得OMNIPAGE,ABBYY FineReader會和正方體,但我不知道我想要做的是在所有可能的。

+0

文件是乾淨和尼斯機打文字(宋體,時間新羅馬等),或者低質量,在手寫或其他一些難以OCR字體? –

+0

他們是打字頁面,有時還有手寫添加。 – Jack

回答

1

傑克。感謝您的澄清。

簡而言之,轉錄後的數據幾乎沒有任何好處,您可以輕鬆地運行任何OCR過程,除了高度定製的定製開發的應用程序,它可以根據OCR文本進行模糊的每字查找您轉錄數據的特定位置。在該定製應用程序中,您可以使用常規OCR(您指定的任何一個),但最好是某種OCR,它爲您提供處理文本的座標(帶導出到XML的OCR-IT API)或某種類型的SDK,基於文本的訪問。然後,作爲後處理的一部分,您的應用程序可以引用迴轉錄數據,假設您有辦法識別您在任何時刻在轉錄數據中的位置,或者至少執行全文搜索並能夠在多重情況下識別正確實例實例被發現。您的轉錄數據可能沒有將文本鏈接到文本來源的原始圖像的座標。如果找到類似的數據,並且存在字符差異,則您的應用程序可以採集轉錄的數據並用它替換(即正確)OCR編輯的數據。這很可能不適用於手寫文本,因爲常規OCR會從中產生噪音,不足以進行模糊查找。完成所有數據替換後,您的應用程序將需要PDF導出創建功能,對此可再次使用某些庫。

整個過程是複雜的,並擊中或錯過在某些情況下,特別是在手寫文本。如果您擁有大量這些圖像+數據,那麼花費數天(如果不是數週)開發這種專用應用程序來壓縮所有數據可能是值得的。需要執行成本分析。

從手寫

除此之外,現代高品質的OCR(ABBYY,Nuance的,OCR-IT)應生產出高品質的文字,如果你的圖像的高品質。使用PDF文本下的圖像,讀者將看不到任何OCR錯誤。我想說95-99%的準確度是可以實現的。這種開箱即用的選項可以爲您提供足夠高的準確性,而且時間或費用很少。

您的轉錄數據可以提供一個好處,特別是數據包含專業或行業特定的詞彙或專有名稱,這些詞彙或名稱可能不在普通英語詞典(已包含在ABBYY和其他OCR軟件中)中找到。通過從轉錄數據中創建自定義字典,ABBYY OCR可以使用該字典,以進一步提高使用開箱即用處理的特殊字的識別率。

伊利亞·葉夫多基莫夫

+0

謝謝你對伊利亞的迴應。如果我們決定查看定製安裝,它給了我一個明確的答案和進一步調查的途徑。 – Jack