1
我想OCR很多文件(我的意思是在一天300k +範圍內)。目前我正在使用Tesseract wrapper for .NET,它的質量都很好,但速度不夠好。我平均每次掃描平均掃描半頁的20個任務的平均時間爲2546秒。使用代碼IM:如何加快tesseract OCR
using (var engine = new TesseractEngine(Tessdata, "eng", EngineMode.TesseractOnly))
{
Page page;
page = engine.Process(image, srcRect);
var text = page.GetText();
return Task.FromResult(text);
}
的平均時間我得到的是降低一半圖像的分辨率,並將其轉換爲灰度後。任何想法加快這一進程?我不需要對文本進行分段,只需將文本排成一行即可。我是否應該使用如Matlab for c#?
您是否爲每個頁面創建一個新引擎(調用'new TesseractEngine')? – GWigWam
@GWigWam是的,目前它的工作就是這樣。我很確定它不支持並行使用 – TestzWCh
你是對的,它不支持並行使用。然而,創建它是昂貴的。 – GWigWam