1
我想要在很多掃描書籍(即波斯語(阿拉伯文腳本))中獲取每個單詞的小圖像。 我沒有圖像優勢的實驗。
我怎樣才能以最有效的方式做到這一點?從掃描的紙張中提取單詞圖像
我想要在很多掃描書籍(即波斯語(阿拉伯文腳本))中獲取每個單詞的小圖像。 我沒有圖像優勢的實驗。
我怎樣才能以最有效的方式做到這一點?從掃描的紙張中提取單詞圖像
我建議你在MATLAB中編寫一個腳本,就像這樣。
一個:半字母之間的最大距離(以像素爲單位)
B:一半的字之間的最小距離(以像素爲單位)
(讓希望一個< B)
閾值的掃描。頁面的圖像。
I(I < Th) = 0;I(I > Th) = 1;
通過試驗選擇'Th'。你應該得到一個二進制圖像'我'有字母是1。 擴大圖像。
imdilate(I,a);
這會將字母連接在一起。
消除噪音。
I = bwareaopen(I,n);
這將刪除n個像素以下的所有連接組件。
做連接組件分析。
CC = bwconncomp(I);
Rect = regionprops(I,'BoundingBox');
這將返回一個包含單個單詞的矩形的座標列表。 從原始副本中提取子矩陣並使用imwrite()寫入圖像。