我想解析PDF文件使用pdfMiner,但提取的文本得到合併。我正在使用以下鏈接中的pdf文件。 PDF File 我好與任何類型的輸出(文件/串)。下面是代碼,它將提取的文本作爲字符串返回給我,但由於某些原因,列被合併。 from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from
我已經得到pypdf工作就好了一個單一的PDF文件,但我似乎無法讓它工作的文件,或for循環多個pdf文件,沒有失敗,因爲的字符串不可調用。任何想法我都可以用作解決方法? def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "r