我已經發現(略)修改計算器這個腳本爲它的蟒蛇3.3工作:警告
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
def convert_pdf(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
fp = open(path, 'rb')
process_pdf(rsrcmgr, device, fp)
fp.close()
device.close()
string = retstr.getvalue()
retstr.close()
return string
print(convert_pdf('abc.pdf'))
它工作正常,但是我似乎有2個問題:
在運行該腳本,我得到噸警告:
警告:根:未定義:PDFCIDFont:BASEFONT = 'LKOELN +宋體正規',cidcoding = '的Adobe身份',139
警告:根:未定義:PDFCIDFont:BASEFONT = 'LKKPCF + Wingdings2',cidcoding = '的Adobe身份',132
其中在打印文本看起來像(cid:139)
,我該如何抓住這一警告並更換那些文字與別的東西?
請注意,我有一個編解碼器的線,在原劇本的
TextConverter(rsrcmgr, retstr, laparams=laparams)
裏面去,但是我得到:回溯(最後最近一次調用): 文件「C:/用戶/羅德里戈/Desktop/csp_pdf/csp_pdf2.py「,第46行,在 convert_pdf('abc.pdf') 文件」C:/Users/rodrigo/Desktop/csp_pdf/csp_pdf2.py「,第33行,在convert_pdf中 device = TextConverter(rsrcmgr,retstr,codec ='utf-8',laparams = laparams) TypeError:init()得到了一個意外的關鍵字參數'codec'
這與第一個問題有關嗎?
謝謝!