0
我有一個圖像這樣超正方體OCR給出錯位輸出文本
SOME STUFF HERE
DEPARTMENT OF PATHOLOGY
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
AND SOME MORE STUFF HERE
上述圖像的形狀是矩形,其中長度大於寬度。我裁剪上述圖像到圖像,我需要閱讀的部分和它看起來像這樣
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
在裁剪後的圖像的寬度大於長度。但我得到的輸出是錯位的
Name
Bill Date
Sample Date
Report Date
MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM
Age/Sex
UMR No
Bill No
Result No
31 Y(s)/Male
ODC61995
BIL130579
RES378704
任何人都可以請解釋爲什麼會發生這種情況嗎?沒有裁剪,輸出是正確對齊的,但錯誤更多。我的想法是僅在圖像的相關部分運行Tesseract OCR。我有和沒有Python包裝一樣的結果。
P.S. - 在將圖像傳遞到Tesseract之前,我會對圖像應用侵蝕/擴張,但沒有裁剪,導致類似於上面的錯位輸出。