我正在開發使用Python Flask framework將處理PDF文檔網站。我將PDF文件存儲在MongoDB中,當我需要爲訪問用戶提供服務時,該文件運行良好。我現在需要做一些文字和圖片萃取,我使用pdfminer library。當我使用pdf2txt.py,並提供從文件系統中的文件,這條線(context here)的作品幾乎瞬間: for page in PDFPage.get_page
我試圖從使用PDFMiner(代碼Extracting text from a PDF file using PDFMiner in python?處的代碼)中提取PDF文件中的文本。除了path/to/pdf之外,我沒有更改代碼。令人驚訝的是,該代碼返回同一文檔的多個副本。我得到了與其他pdf文件相同的結果。我是否需要通過其他論點或者我缺少什麼?任何幫助,高度讚賞。以防萬一,我提供了代碼: fr
我已經發現(略)修改計算器這個腳本爲它的蟒蛇3.3工作: from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO