2012-04-10 31 views
1

我想要在很多掃描書籍(即波斯語(阿拉伯文腳本))中獲取每個單詞的小圖像。 我沒有圖像優勢的實驗。
我怎樣才能以最有效的方式做到這一點?從掃描的紙張中提取單詞圖像

回答

3

我建議你在MATLAB中編寫一個腳本,就像這樣。
一個:半字母之間的最大距離(以像素爲單位)
B:一半的字之間的最小距離(以像素爲單位)
(讓希望一個< B)

閾值的掃描。頁面的圖像。

I(I < Th) = 0;I(I > Th) = 1; 

通過試驗選擇'Th'。你應該得到一個二進制圖像'我'有字母是1。 擴大圖像。

imdilate(I,a); 

這會將字母連接在一起。
消除噪音。

I = bwareaopen(I,n); 

這將刪除n個像素以下的所有連接組件。
做連接組件分析。

CC = bwconncomp(I); 
Rect = regionprops(I,'BoundingBox'); 

這將返回一個包含單個單詞的矩形的座標列表。 從原始副本中提取子矩陣並使用imwrite()寫入圖像。