1
任何人都可以提出一種簡單的方法來從PDF中提取ToUnicode表格嗎?我可以從mupdf中使用pdfextract提取字體,現在我正在尋找一種方法來爲這些字體提取ToUnicode表。從PDF中提取ToUnicode表格
任何人都可以提出一種簡單的方法來從PDF中提取ToUnicode表格嗎?我可以從mupdf中使用pdfextract提取字體,現在我正在尋找一種方法來爲這些字體提取ToUnicode表。從PDF中提取ToUnicode表格
您可以修改pdfextract以提取ToUnicode CMaps(不是表格,CMaps)。
你可以看看savefont的代碼,並添加類似:
obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
stream = obj;
}
如果有ToUnicode(不需要有),那麼你可以以類似的方式流轉儲到字體的方式流寫入文件。然後(大小buf-> LEN)
obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
stream = obj;
buf = fz_new_buffer(0);
error = pdf_load_stream(&buf, xref, fz_to_num(stream), fz_to_gen(stream));
if (error)
die(error);
/* Do something with the data */
}
buf->數據將包含CMAP的,你可以寫入文件,或什麼的。
這是Artifex還是MuPDF開發者會考慮將其作爲「mutool extract」的「官方」功能添加/包含在內? –
如果有人想寫代碼,可能是的,它似乎有一定的價值。目前開發商沒有時間。 – KenS
嘿......它只是在我看來,非編碼器已經在這個答案的代碼:-) –