我最近發現這個非常方便的PDF轉換庫。我正在嘗試將pdf轉換爲字符串值。爲了解析數據並轉換爲csv文件。我想爲未來自動化,所以我不能使用Tabula。不打印字符串值的路徑
我打電話給一些模塊,以便將PDF轉換爲字符串。 字符串轉換的部分不起作用。 (pdf2string.py
) 下面是pdf轉換爲字符串的一部分。
我沒有得到任何錯誤。成功。但是,沒有產出。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
import re
import csv
import sys
def convert_pdf_to_html(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = HTMLConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0 #is for all
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str
print str
if __name__ == '__main__':
if len(sys.argv) == 2:
path = sys.argv[1]
convert_pdf_to_html(path)
這是我的bash。
python pdf2string.py example.pdf
Script是pdf2string.py
和路徑是example.pdf
。
我也是python中的高級邏輯的新手。
解釋更多不起作用的東西。有錯誤嗎?有些輸出結果不符合您的期望? –
模塊將PDF文件轉換爲html字符串值。這告訴我以哪種格式解析文件。假設給我一個html標籤。我沒有錯誤。在輸出之後,我確實獲得了成功的完成。我需要的是'str'輸出。我在想我的道路設置錯了。我在函數中找不到任何錯誤。 –