2012-07-14 58 views
-1

爲了我個人的興趣,我從我的研究中看到,開始自己的OCR並不是那麼容易。不過,我希望聽到有關如何實現不僅識別字符而且還以格式化字符串返回結果這一挑戰的想法。 例如,我有一個表的圖像(想象一下,它是用圖像「|」和「_」被繪製直線):C#自定義OCR,返回一個格式化的字符串


|數,AnotherNumber |一些文本|


| 1,4 | Blah |


,並用無聲的OCR後,我得到的結果爲 「|號碼,AnotherNumber | SomeText | \ n | 1,4 |布拉赫|」 任何想法,我怎麼能實現這一點,以及我可以使用哪些可用的工具/庫?我也想用Visual Studio 2010在C#中編寫它。理想情況下,使用PDF可以使用不同的圖像格式。我已經看了一些,但他們似乎不兼容,因爲他們使用C++或C. 謝謝。 Alina。

回答

0

越來越OCR libaries是挺難 (當然只是如果你不喘氣爲它付出的),你可以試試這個,它不是免費的,但如果您有Office 2007: http://www.codeproject.com/Articles/41709/How-To-Use-Office-2007-OCR-Using-C

+0

唯一的問題是我我面對的是,我需要能夠識別出畫線的OCR作爲「|」 「_」類型的表格上的字符。那裏是否有預煮的東西?或者,如果可以,我可以獲得一個開放的庫並使用這些功能進行擴展?謝謝。 – 2012-07-14 08:56:15

+0

如果可以,我也很樂意從頭開始自己的OCR。在那種情況下,對我有什麼用處? – 2012-07-14 08:57:38