2017-11-18 38 views
-1

我沒有得到任何解決方案,我們有選項可用於使用Pypdf提取整個文本,但我想逐行提取文本。任何幫助,將不勝感激。由於如何從Python中的Pdf中逐行提取文本?

+0

StackOverflow希望您[嘗試首先解決您自己的問題](http://meta.stackoverflow.com/questions/261592),並且我們也[不回答作業問題](https:// softwareengineering.meta.stackexchange.com/questions/6166)。請更新您的問題,以顯示您已經在[最小,完整和可驗證的示例]中嘗試過的內容(http://stackoverflow.com/help/mcve)。有關更多信息,請參閱[如何提出良好問題](http://stackoverflow.com/help/how-to-ask),並參加[網站之旅](http://stackoverflow.com/tour ):) – Barmar

+0

我想這個,但它是給整個文本。我想逐行提取文本。 進口PyPDF2 pdfFileObj =開放(R'C:\ Users \用戶桌面\ new.pdf」, 'RB') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) 文本= STR(pageObj .extractText()) –

+0

將您的代碼放在問題中,以便格式正確且可讀。 – Barmar

回答

0

如果你正在使用Ubuntu,你可以這樣做:

$ less <file_name>.pdf >op.txt 

,並首先在PDF文本重定向到一個文本文件,然後使用Python代碼逐行閱讀:

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close() 
+0

儘管less可以自動調用某些轉換器(例如[Poppler](https://poppler.freedesktop.org/)中的pdftotext),但它不是轉換器本身。這很可能只是複製PDF。 –