2012-01-04 236 views
1

我試圖使用Tesseract-OCR來檢測純文本圖像的文本,但這些文本有一個手寫字體,稱爲日記Tesseract OCR - 手寫字體

例子:

enter image description here

結果是不是最好的:

千里馬! (35)

是否有任何可能改善結果或確切得到確切的結果?

回答

0

像安德魯現金提到,這將是非常難以進行OCR,因爲它擁有多項下一字交匯的是t字母。

對於結果改進,您可能想要嘗試更精確的SDK。看看ABBYY Cloud OCR SDK,它是ABBYY最近推出的基於雲的OCR SDK。它處於測試階段,所以現在它完全免費使用。我工作@ ABBYY,如果需要,我們可以爲您提供有關我們產品的更多信息。我送你連接到我們的SDK中的圖像,並得到這樣的響應:

Maximal size: lall (35) 
+2

爲了公平起見,問題標題中提到的Tesseract言下之意,他詢問如何與正方體執行此* *。 – Skrylar 2013-11-11 16:10:16

3

我很驚訝Tesseract做得很好。通過一點訓練,你應該能夠訓練小寫字母'l'來正確識別。

您遇到的主要問題是大T字符的頂部。水平線延伸跨過2個(可能是3個)其他字符單元格,這會在任何OCR引擎嘗試將字符分割爲識別時造成問題。在這種情況下,培訓可能會有所幫助。

接下來的問題是。和:非常輕/薄,可能在OCR開始之前通過圖像預處理被移除。

總體而言,使用Tesseract改善結果的唯一機會是調查培訓。這裏有一些可能有用的鏈接。

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers