2011-10-06 53 views
1

任何人都可以提出一種簡單的方法來從PDF中提取ToUnicode表格嗎?我可以從mupdf中使用pdfextract提取字體,現在我正在尋找一種方法來爲這些字體提取ToUnicode表。從PDF中提取ToUnicode表格

回答

2

您可以修改pdfextract以提取ToUnicode CMaps(不是表格,CMaps)。

你可以看看savefont的代碼,並添加類似:

obj = fz_dict_gets(dict, "ToUnicode"); 
if (obj) 
{ 
    stream = obj; 
} 

如果有ToUnicode(不需要有),那麼你可以以類似的方式流轉儲到字體的方式流寫入文件。然後(大小buf-> LEN)

obj = fz_dict_gets(dict, "ToUnicode"); 
if (obj) 
{ 
    stream = obj; 
     buf = fz_new_buffer(0); 

     error = pdf_load_stream(&buf, xref, fz_to_num(stream), fz_to_gen(stream)); 
     if (error) 
     die(error); 
      /* Do something with the data */ 
    } 

buf->數據將包含CMAP的,你可以寫入文件,或什麼的。

+0

這是Artifex還是MuPDF開發者會考慮將其作爲「mutool extract」的「官方」功能添加/包含在內? –

+0

如果有人想寫代碼,可能是的,它似乎有一定的價值。目前開發商沒有時間。 – KenS

+0

嘿......它只是在我看來,非編碼器已經在這個答案的代碼:-) –