如何從pdf文件中逐行讀取txt

import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
output = pyPdf.PdfFileWriter() 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close()

這不是將pdf的內容寫入txt文件中......我做了什麼???如何從pdf文件中逐行讀取txt

來源

2013-02-27 Venkatraman K

迭代通過每一個頁面，並呼籲extractText()像這樣：

content = "" 
for i in range(0, num_pages): 
    content += pdfl.getPage(i).extractText() + "\n"

一旦你的全部內容，你可以很容易地通過「\ n」分隔符分割線。

編輯：檢查for循環後，變量contents是否包含任何文本。並非所有的PDF文件都包含文本信息。

來源

2013-02-27 12:54:11 Howie

進口pyPdf F =開放（ 'jayabal_appt.pdf'， 'RB'） PDFL = pyPdf.PdfFileReader（F）輸出= pyPdf.PdfFileWriter（）含量= 「」對於i在範圍（0， 0） outpu = open（'b.txt'，'wb'）（0） outpu.write（內容） f.close（） outpu.close（）will this wrk ??? – 2013-02-27 13:08:31

@VenkatramanK請更新你的問題，並在那裏添加格式化的代碼。但是從我能讀的你的代碼中可以看到一些拼寫錯誤。 – Howie 2013-02-27 13:08:49

對不起，堆棧溢出... – 2013-02-27 13:14:39

如何從pdf文件中逐行讀取txt

回答

相關問題