2016-11-10 64 views
0

我試圖用我編寫的這個小腳本完成的任務就是解析PDF文件中的數據。將文件內容複製到剪貼板並在python中自動粘貼到純文本文件中

但是,我似乎遇到了python的問題,更具體地說,PyPDF2模塊無法從PDF文件中讀取文本。打印出的數據都是模糊的,基本上不可讀。但是,當我打開我正在嘗試閱讀的pdf文件時,我可以簡單地使用click drag and ctrl+c複製內容,然後將其粘貼到純文本文件中時,它可以完美地工作。當我手動完成複製和粘貼過程時,數據是可讀的。

所以我想要做的就是模仿這個確切的步驟,但是使它自動化而不是讓我瀏覽執行上述步驟的pdf文件中的所有頁面。

或者如果有什麼建議我還能做什麼來實現這一點,我將不勝感激。我曾嘗試將PDF文件轉換爲DOCX和純文本文件,但該文件的內容有自己的格式完全重新安排

import PyPDF2 
pdfFileObj = open('sjsuclassdata.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pdfReader.numPages 

pageObj = pdfReader.getPage(4) 
print(pageObj.extractText()) 

編輯 本質上講我試着現在要做的就是簡單地編寫一個腳本這將執行以下操作。

1)閱讀PDF文件

2)複製整個頁面的內容(Ctrl + A)

3)整個頁面糊狀內容爲純文本文件(Ctrl + V)

4)閱讀PDF文件,直到結束

回答

0

我會給石板一試:

import slate 

output_prefix = 'foobar' 
file_ext = 'txt' 

with open('example.pdf') as f: 
     doc = slate.PDF(f) 
     for page_number, page in enumerate(doc): 
      open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number]) 
+0

感謝suggesti然而,我一直在試圖安裝石板無濟於事:( –

相關問題