2012-09-22 54 views
0

有誰知道從圖像中提取字符的好算法。所有的角色都是黑色的,背景是白色的。事實上,這些圖像將只是一個印刷文件。我正在考慮使用搜索算法(如DFS或BFS)來聚類角色,但我不確定是否有更好的方法?你可以建議圖書館可以做到這一點嗎?我只是想將圖像剪切成較小的圖像,每個圖像都代表一個字符。從圖像中提取字符

+1

使用OCR應用程序,也有一些開源的,這裏是[一](http://jocr.sourceforge.net/)... – Curious

回答

0

好吧,這可能會有幫助,但最終我使用DFS搜索了字符。我也有一些啓發法來決定某個像素是否是角色的一部分。 此外,由於一些字符是分開的(像我),後來我不得不決定是否合併它們。它實際上工作得很好。它是在很久以前完成的,但決定回答我很久以前問過的問題。

2

這樣的算法通常被稱爲OCR(光學字符識別),在每個操作系統下,您可能會發現可以使用效用更好或更差的公用程序,免費的,商業的,其中很多。實際上,有些用於例如通過垃圾郵件檢測,即時識別傳入電子郵件中的圖像上的文字,甚至可以在shell中執行此操作,甚至不會看到圖像 - 更不會成功地將文本從圖像中提取到純文本文件。

+0

我已經有一個OCR應用程序,它適用於一個字符一次是因爲輸入是一個包含一個字符的圖像。我想寫一個類來讀取圖像,將其中的字符分隔成較小的圖像並將它們輸入到ocr應用程序中。 –

+0

我敢打賭,你也可以找到一些ocr API。 –

+0

這個**絕對是OCR **解決的問題,所以請使用OCR應用程序使用的任何內容......爲什麼你會堅持以不同的方式做它? –

1

通過scipy包蟒蛇可以使用scipy.ndimage.label(img)方法。它應該標籤在圖像中不同的人物,後來使用scipy.ndimage.find_objects提取那些characters.but你需要先反轉圖像,以便您的背景顏色黑色不是白色。

您可能想要發佈圖片以確切地查看您想要的內容。