Tesseract OCR - 手寫字體

我試圖使用Tesseract-OCR來檢測純文本圖像的文本，但這些文本有一個手寫字體，稱爲日記。Tesseract OCR - 手寫字體

例子：

enter image description here

結果是不是最好的：

千里馬！（35）

是否有任何可能改善結果或確切得到確切的結果？

來源

2012-01-04 Poru

像安德魯現金提到，這將是非常難以進行OCR，因爲它擁有多項下一字交匯的是t字母。

對於結果改進，您可能想要嘗試更精確的SDK。看看ABBYY Cloud OCR SDK，它是ABBYY最近推出的基於雲的OCR SDK。它處於測試階段，所以現在它完全免費使用。我工作@ ABBYY，如果需要，我們可以爲您提供有關我們產品的更多信息。我送你連接到我們的SDK中的圖像，並得到這樣的響應：

Maximal size: lall (35)

來源

2012-01-10 09:18:06 Nikolay

爲了公平起見，問題標題中提到的Tesseract言下之意，他詢問如何與正方體執行此* *。 – Skrylar 2013-11-11 16:10:16

我很驚訝Tesseract做得很好。通過一點訓練，你應該能夠訓練小寫字母'l'來正確識別。

您遇到的主要問題是大T字符的頂部。水平線延伸跨過2個（可能是3個）其他字符單元格，這會在任何OCR引擎嘗試將字符分割爲識別時造成問題。在這種情況下，培訓可能會有所幫助。

接下來的問題是。和：非常輕/薄，可能在OCR開始之前通過圖像預處理被移除。

總體而言，使用Tesseract改善結果的唯一機會是調查培訓。這裏有一些可能有用的鏈接。

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers

來源

2012-01-07 02:53:16

Tesseract OCR - 手寫字體

回答

相關問題