我正在嘗試使用tesseract從png中提取文本。在png後面,Tesseract不會提取文本。 Tesseract OCR for .net在黑色矩形上寫入白色文本並且黑色矩形的邊框爲白色時未檢測到文本?
圖像中的黑色矩形具有白色邊框(由於網站背景,這是不可見的)。但是,如果我從矩形中刪除白色邊框,則Tesseract能夠檢測文本。是否有任何工作圍繞這個問題?
另外,如果減少的邊框大小則它提取一些文字:
我(31.04我
這裏是我使用的代碼:
using (TesseractEngine ocr = new TesseractEngine(dataPath, "eng", EngineMode.TesseractOnly))
{
using (Pix p = Pix.LoadFromFile(filePath))
{
using (Pix img = p.Scale(2,3))
{
using (var page = ocr.Process(img))
{
string text = page.GetText();
Console.WriteLine(text);
}
}
}
}
通過縮放我能夠提取以下文本:
I G1.04 I
但是,如果我增加邊框尺寸,那麼即使縮放圖像也沒有效果。
其實正方體可以檢測文本甚至與白色邊框。這可能是由於其他問題。嘗試將圖像轉換爲灰度並將其傳遞給tesseract – Prabu