2017-04-10 64 views
1

Python新的Python。 我正在使用此代碼來提取文本。是否可以提取所有頁面並在文件中輸出?從PDF中提取文本 - 所有頁面和輸出 - 使用Python的文件

import PyPDF2 
pdf_file = open('sample.pdf','rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file) 
number_of_pages = read_pdf.getNumPages() 
page = read_pdf.getPage(10) 
page_content = page.extractText() 
print (page_content) 
+0

我覺得你可以參考此鏈接http://stackoverflow.com/questions/17003185/extracting-entire-pdf-data-with-python-pdfminer/39736947#39736947除了pypdf2 – mikewolfli

回答

1

使用循環提取每個頁面的文本並將每個頁面的文本寫入單個文件。

import PyPDF2 
with open('sample.pdf','rb') as pdf_file, open('sample.txt', 'w') as text_file: 
    read_pdf = PyPDF2.PdfFileReader(pdf_file) 
    number_of_pages = read_pdf.getNumPages() 
    for page_number in range(number_of_pages): # use xrange in Py2 
     page = read_pdf.getPage(page_number) 
     page_content = page.extractText() 
     text_file.write(page_content) 
+0

完美!有效!但是......有可能閱讀這種pdf嗎? https://www.cotemar.com.br/biblioteca/administracao/teoria-geral-da-administracao.pdf –

+0

看來,PDF是一本掃描書籍。即使它已經被OCR了,我也不知道PyPDF是否可以處理它。 – kindall

相關問題