pypdf

0熱度

2回答

我有一個Python腳本，它使用PyPDF2來顛倒PDF頁面的順序。 from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() rpage = [] name = input("What's the file called?") filename = name.split('.', 1) inp

0熱度

1回答

只能將列表（不是「unicode」）連接到列表

我已將複製粘貼到Word.docx文件中的一些Lorem Ipsum，將其保存爲PDF並嘗試運行以下腳本以進行測試以從PDF中提取文本。 from pyPdf import PdfFileReader if (fileExtension == ".PDF"): pdfDoc = PdfFileReader(file(FOLDER+j, "rb")) fileText = ""

1熱度

1回答

Python 2.7：使用Windows 7的pypdfocr時的難度

我試圖在Windows 7中使用pypdfocr與Python 2.7。這是錯誤消息我收到的時候我嘗試pypdfocr在cmd： C:\Users\chamar.stu>pypdfocr F:\test2.pdf Starting conversion of F:\test2.pdf 'pdfimages' is not recognized as an internal or external

8熱度

1回答

具有相同名稱的PyPdf2嵌套書籤不起作用

當您試圖嵌套多個具有相同名稱的書籤時，PyPdf2並未將其考慮在內。下面自足的Python代碼來測試我的意思（你需要有3個命名爲A，B和C的工作文件夾中的PDF文件來測試它） from PyPDF2 import PdfFileReader, PdfFileMerger def main(): merger = PdfFileMerger() pagenum = 0 firstOne

1熱度

1回答

使用Python突出顯示PDF中的文本

我正在爲我的PDF數據語料庫開發自定義搜索引擎。我有一個轉換層，它能夠將PDF內容轉儲到文本（使用Apache Tika和GROBID）。我已完成搜索圖層和返回搜索結果列表的視圖。現在，我想在原始PDF上添加突出顯示功能，以查找出現搜索字詞的行。是的，我想修改PDF文件，如果有必要。有什麼方法可以在PDF文件中突出顯示文本？ PDFMiner或PyPDF2或其他Python庫是否能夠做到這一

2熱度

1回答

PyPDF2 - 合併來自兩個不同PDF文件的頁面不起作用

我試圖將兩個PDF文件中的頁面合併成一個PDF頁面。所以，我想下面的代碼使用PyPDF2： from PyPDF2 import PdfFileReader,PdfFileWriter import sys f = sys.argv[1] k = sys.argv[2] print f,k file1 = PdfFileReader(file(f, "rb")) file2 = Pdf

1熱度

4回答

使用python逐行讀取pdf文件

我用下面的代碼來讀取pdf文件，但它沒有讀取它。可能是什麼原因？ >>> import os >>> from PyPDF2 import PdfFileReader, PdfFileWriter >>> path = "/Users/Rahul/Desktop/Dfiles/" >>> dirs = os.listdir(path) >>> directory = "/Users

2熱度

1回答

在python中讀取所有類型的文件

我想從python中的不同類型的文件中提取信息（.pdf .doc .docx）並將其轉換爲.txt，但在處理不同的文件時，我在不需要時獲取空格和換行符和許多其他問題。我已經嘗試過PyPDF2和PDF manager.Please建議我可以從文件中提取信息的東西。編輯目前尋找的東西，它可以幫助我從.pdf文件中提取確切的文本。我已經嘗試過PyPDF，PDFMiner和PDF Manager，並

0熱度

1回答

Unicode錯誤PyPdf

我嘗試使用requests庫下載多個pdf，並使用pypdf將它們合併在一起。一般來說，這工作正常，但對於一些PDF，我只是得到一個錯誤。 MWE.py import requests from pyPdf import PdfFileWriter, PdfFileReader from StringIO import StringIO input = PdfFileReader(Str

0熱度

1回答

用Python和pyPDF提取PDF的前兩行

我使用python 2.7和pyPDF從PDF文件中獲取標題元信息。不幸的是，並非所有的PDF都有元信息。我現在想要做的是從PDF中獲取前兩行文本。使用我現在擁有的如何修改代碼來捕獲pyPDF的前兩行？ from pyPdf import PdfFileWriter, PdfFileReader import os for fileName in os.listdir('.'):