0
我使用ocr客戶端tesseract在hocr文件中生成ocr文本和位置數據。我希望頂部從圖像中創建一個pdf,並在其中嵌入tesseract的不可見文本層。我無法弄清楚如何做到這一點。產生沒有文本數據的概率密度函數爲方便:如何在iOS中生成包含嵌入式hocr數據的PDF?
NSMutableData *pdfFile = [[NSMutableData alloc] init];
UIImage *image = [UIImage imageWithCGImage:[self.sourceImageArray[0] CGImage]];
CGRect rect;
rect = CGRectMake(0, 0, image.size.height ,image.size.width);
UIGraphicsBeginPDFContextToData(pdfFile, CGRectZero, nil);
for (int i = 0; i < [self.sourceImageArray count] ; i++){
UIGraphicsBeginPDFPageWithInfo(rect, nil);
UIImage *contextImage = self.sourceImageArray[i];
[contextImage drawInRect:rect];
}
UIGraphicsEndPDFContext();
NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES);
NSString *documentsDirectory = [paths objectAtIndex:0];
NSString* path = [documentsDirectory stringByAppendingPathComponent:@"multipage.pdf"];
NSData* data = pdfFile;
[data writeToFile:path atomically:YES];
在PDF源代碼,不可見文本可使用文本呈現模式3(「既不填充也不筆劃字形形狀」)被寫入。這就是OCR如何將文本插入到基本上僅包含掃描圖像的PDF頁面中。
所以問題是我怎樣才能將文本呈現爲隱形模式下的石英pdf 3.任何幫助將非常感激!