如何從Python中的Pdf中逐行提取文本？

-1

我沒有得到任何解決方案，我們有選項可用於使用Pypdf提取整個文本，但我想逐行提取文本。任何幫助，將不勝感激。由於如何從Python中的Pdf中逐行提取文本？

2017-11-18 Santosh Vishwakarma

StackOverflow希望您[嘗試首先解決您自己的問題]（http://meta.stackoverflow.com/questions/261592），並且我們也[不回答作業問題]（https：// softwareengineering.meta.stackexchange.com/questions/6166）。請更新您的問題，以顯示您已經在[最小，完整和可驗證的示例]中嘗試過的內容（http://stackoverflow.com/help/mcve）。有關更多信息，請參閱[如何提出良好問題]（http://stackoverflow.com/help/how-to-ask），並參加[網站之旅]（http://stackoverflow.com/tour ）:) – Barmar

我想這個，但它是給整個文本。我想逐行提取文本。進口PyPDF2 pdfFileObj =開放（R'C：\ Users \用戶桌面\ new.pdf」， 'RB'） pdfReader = PyPDF2.PdfFileReader（pdfFileObj） pageObj = pdfReader.getPage（0）文本= STR（pageObj .extractText（）） –

將您的代碼放在問題中，以便格式正確且可讀。 – Barmar

如果你正在使用Ubuntu，你可以這樣做：

$ less <file_name>.pdf >op.txt

，並首先在PDF文本重定向到一個文本文件，然後使用Python代碼逐行閱讀：

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close()

來源

2017-11-18 08:25:26

儘管less可以自動調用某些轉換器（例如[Poppler]（https://poppler.freedesktop.org/）中的pdftotext），但它不是轉換器本身。這很可能只是複製PDF。 –

如何從Python中的Pdf中逐行提取文本？

回答

相關問題