2013-02-27 87 views
0
import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
output = pyPdf.PdfFileWriter() 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close()  

這不是將pdf的內容寫入txt文件中......我做了什麼???如何從pdf文件中逐行讀取txt

回答

0

迭代通過每一個頁面,並呼籲extractText()像這樣:

content = "" 
for i in range(0, num_pages): 
    content += pdfl.getPage(i).extractText() + "\n" 

一旦你的全部內容,你可以很容易地通過「\ n」分隔符分割線。

編輯: 檢查for循環後,變量contents是否包含任何文本。並非所有的PDF文件都包含文本信息。

+0

進口pyPdf F =開放( 'jayabal_appt.pdf', 'RB') PDFL = pyPdf.PdfFileReader(F) 輸出= pyPdf.PdfFileWriter() 含量= 「」 對於i在範圍(0, 0) outpu = open('b.txt','wb') (0) outpu.write(內容) f.close() outpu.close()will this wrk ??? – 2013-02-27 13:08:31

+0

@VenkatramanK請更新你的問題,並在那裏添加格式化的代碼。但是從我能讀的你的代碼中可以看到一些拼寫錯誤。 – Howie 2013-02-27 13:08:49

+0

對不起,堆棧溢出... – 2013-02-27 13:14:39