pypdf

    0熱度

    2回答

    我有一個Python腳本,它使用PyPDF2來顛倒PDF頁面的順序。 from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() rpage = [] name = input("What's the file called?") filename = name.split('.', 1) inp

    0熱度

    1回答

    我已將複製粘貼到Word.docx文件中的一些Lorem Ipsum,將其保存爲PDF並嘗試運行以下腳本以進行測試以從PDF中提取文本。 from pyPdf import PdfFileReader if (fileExtension == ".PDF"): pdfDoc = PdfFileReader(file(FOLDER+j, "rb")) fileText = ""

    1熱度

    1回答

    我試圖在Windows 7中使用pypdfocr與Python 2.7。 這是錯誤消息我收到的時候我嘗試pypdfocr在cmd: C:\Users\chamar.stu>pypdfocr F:\test2.pdf Starting conversion of F:\test2.pdf 'pdfimages' is not recognized as an internal or external

    8熱度

    1回答

    當您試圖嵌套多個具有相同名稱的書籤時,PyPdf2並未將其考慮在內。 下面自足的Python代碼來測試我的意思(你需要有3個命名爲A,B和C的工作文件夾中的PDF文件來測試它) from PyPDF2 import PdfFileReader, PdfFileMerger def main(): merger = PdfFileMerger() pagenum = 0 firstOne

    1熱度

    1回答

    我正在爲我的PDF數據語料庫開發自定義搜索引擎。 我有一個轉換層,它能夠將PDF內容轉儲到文本(使用Apache Tika和GROBID)。我已完成搜索圖層和返回搜索結果列表的視圖。 現在,我想在原始PDF上添加突出顯示功能,以查找出現搜索字詞的行。是的,我想修改PDF文件,如果有必要。 有什麼方法可以在PDF文件中突出顯示文本? PDFMiner或PyPDF2或其他Python庫是否能夠做到這一

    2熱度

    1回答

    我試圖將兩個PDF文件中的頁面合併成一個PDF頁面。所以,我想下面的代碼使用PyPDF2: from PyPDF2 import PdfFileReader,PdfFileWriter import sys f = sys.argv[1] k = sys.argv[2] print f,k file1 = PdfFileReader(file(f, "rb")) file2 = Pdf

    1熱度

    4回答

    我用下面的代碼來讀取pdf文件,但它沒有讀取它。可能是什麼原因? >>> import os >>> from PyPDF2 import PdfFileReader, PdfFileWriter >>> path = "/Users/Rahul/Desktop/Dfiles/" >>> dirs = os.listdir(path) >>> directory = "/Users

    2熱度

    1回答

    我想從python中的不同類型的文件中提取信息(.pdf .doc .docx)並將其轉換爲.txt,但在處理不同的文件時,我在不需要時獲取空格和換行符和許多其他問題。我已經嘗試過PyPDF2和PDF manager.Please建議我可以從文件中提取信息的東西。 編輯 目前尋找的東西,它可以幫助我從.pdf文件中提取確切的文本。我已經嘗試過PyPDF,PDFMiner和PDF Manager,並

    0熱度

    1回答

    我嘗試使用requests庫下載多個pdf,並使用pypdf將它們合併在一起。一般來說,這工作正常,但對於一些PDF,我只是得到一個錯誤。 MWE.py import requests from pyPdf import PdfFileWriter, PdfFileReader from StringIO import StringIO input = PdfFileReader(Str

    0熱度

    1回答

    我使用python 2.7和pyPDF從PDF文件中獲取標題元信息。不幸的是,並非所有的PDF都有元信息。我現在想要做的是從PDF中獲取前兩行文本。使用我現在擁有的如何修改代碼來捕獲pyPDF的前兩行? from pyPdf import PdfFileWriter, PdfFileReader import os for fileName in os.listdir('.'):