從PDF中提取ToUnicode表格

任何人都可以提出一種簡單的方法來從PDF中提取ToUnicode表格嗎？我可以從mupdf中使用pdfextract提取字體，現在我正在尋找一種方法來爲這些字體提取ToUnicode表。從PDF中提取ToUnicode表格

2011-10-06 Yaroslav Bulatov

您可以修改pdfextract以提取ToUnicode CMaps（不是表格，CMaps）。

你可以看看savefont的代碼，並添加類似：

obj = fz_dict_gets(dict, "ToUnicode"); 
if (obj) 
{ 
    stream = obj; 
}

如果有ToUnicode（不需要有），那麼你可以以類似的方式流轉儲到字體的方式流寫入文件。然後（大小buf-> LEN）

obj = fz_dict_gets(dict, "ToUnicode"); 
if (obj) 
{ 
    stream = obj; 
     buf = fz_new_buffer(0); 

     error = pdf_load_stream(&buf, xref, fz_to_num(stream), fz_to_gen(stream)); 
     if (error) 
     die(error); 
      /* Do something with the data */ 
    }

buf->數據將包含CMAP的，你可以寫入文件，或什麼的。

來源

2011-10-07 13:20:48 KenS

這是Artifex還是MuPDF開發者會考慮將其作爲「mutool extract」的「官方」功能添加/包含在內？ –

如果有人想寫代碼，可能是的，它似乎有一定的價值。目前開發商沒有時間。 – KenS

嘿......它只是在我看來，非編碼器已經在這個答案的代碼:-) –

從PDF中提取ToUnicode表格

回答

相關問題