我試圖使用Tesseract-OCR來檢測純文本圖像的文本,但這些文本有一個手寫字體,稱爲日記。Tesseract OCR - 手寫字體
例子:
結果是不是最好的:
千里馬! (35)
是否有任何可能改善結果或確切得到確切的結果?
我試圖使用Tesseract-OCR來檢測純文本圖像的文本,但這些文本有一個手寫字體,稱爲日記。Tesseract OCR - 手寫字體
例子:
結果是不是最好的:
千里馬! (35)
是否有任何可能改善結果或確切得到確切的結果?
像安德魯現金提到,這將是非常難以進行OCR,因爲它擁有多項下一字交匯的是t字母。
對於結果改進,您可能想要嘗試更精確的SDK。看看ABBYY Cloud OCR SDK,它是ABBYY最近推出的基於雲的OCR SDK。它處於測試階段,所以現在它完全免費使用。我工作@ ABBYY,如果需要,我們可以爲您提供有關我們產品的更多信息。我送你連接到我們的SDK中的圖像,並得到這樣的響應:
Maximal size: lall (35)
我很驚訝Tesseract做得很好。通過一點訓練,你應該能夠訓練小寫字母'l'來正確識別。
您遇到的主要問題是大T字符的頂部。水平線延伸跨過2個(可能是3個)其他字符單元格,這會在任何OCR引擎嘗試將字符分割爲識別時造成問題。在這種情況下,培訓可能會有所幫助。
接下來的問題是。和:非常輕/薄,可能在OCR開始之前通過圖像預處理被移除。
總體而言,使用Tesseract改善結果的唯一機會是調查培訓。這裏有一些可能有用的鏈接。
Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers
爲了公平起見,問題標題中提到的Tesseract言下之意,他詢問如何與正方體執行此* *。 – Skrylar 2013-11-11 16:10:16