2010-10-20 53 views
2

我是C#中的一名新開發人員。我正在開發一些應用程序時遇到問題。使用C#將掃描文檔讀取到數據庫字段

我必須可一個「應用」那打開掃描文檔文檔所需的數據保存到數據庫中例如(任何申請表格,或銀行支票的)... 支票號碼,支票掃描件中的帳號或學校申請表中的學生姓名,卷號等。

我得到了有關使用像素的想法。

請提供解決方案。

我使用.NET Framework 3.5與C#語言

與問候 Varun的杜塔

回答

1

你想用OCR從圖片中檢索數據,還有在辦公室OCR組件,您可能能夠使用在這篇文章中看到:Using The Office 2007 OCR Component in C#

否則就現有的問題詢問圖書館要做到這一點:Any open source C# OCR library?

檢索完數據之後,只需將其插入數據庫,使用符合要求的類(SqlConnection或類似的)。

+0

非常感謝。我會研究這個解決方案 – 2010-10-23 07:19:50

2

要將文檔保存到數據庫中,有兩種思想流派。

  1. 在字段中的文件作爲一個blob保存在把文件放在服務器的文件系統,客戶端可以訪問的行
  2. ,並把文件名在數據庫

我寫了幾博客文章,詳細說明每一種方法的優點和缺點:

http://www.atalasoft.com/cs/blogs/loufranco/archive/2007/12/03/images-in-databases-part-i-what-to-store.aspx

http://www.atalasoft.com/cs/blogs/loufranco/archive/2007/12/04/images-in-databases-part-ii-web-images-are-random-access.aspx

http://www.atalasoft.com/cs/blogs/loufranco/archive/2009/04/28/document-storage-database-blobs-or-the-filesystem.aspx

什麼它歸結爲是方便(斑點)與性能(文件系統) - 該文件越大,你越希望使用的文件系統。如果您使用的是當前版本的SQL Server,那麼還有一種文件系統字段類型,您可以爲它提供方便 - 因此這是兩全其美的,但不是標準。

至於從圖像中獲取信息,您需要OCR。最好的開源OCR是來自Google的Tesseract。

如果你想看看商業選擇,我的公司,Atalasoft,銷售OCR引擎,我們有一個.NET wrapper of Tesseract