我正在嘗試使用PyPDF2來獲取目錄中每個pdf的頁數。我可以使用.getNumPages()來查找一個pdf文件的頁數,但我需要遍歷一個目錄並獲取每個文件的頁數。有任何想法嗎?使用Python拉取目錄中所有pdf文檔的頁數
這裏是我的代碼至今:
import pandas as pd
import os
from PyPDF2 import PdfFileReader
df = pd.DataFrame(columns=['fileName', 'fileLocation', 'pageNumber'])
pdf=PdfFileReader(open('path/to/file.pdf','rb'))
for root, dirs, files in os.walk(r'Directory path'):
for file in files:
if file.endswith(".pdf"):
df2 = pd.DataFrame([[file, os.path.join(root,file),pdf.getNumPages()]], columns=['fileName', 'fileLocation', 'pageNumber'])
df = df.append(df2, ignore_index=True)
這個代碼將只在目錄中添加的頁面數從第一PDF文件到數據幀。如果我嘗試添加到PdfFilereader目錄路徑(),我得到一個
PermissionError:[Errno 13] Permission denied.
你有沒有嘗試這樣做你自己第一?如果是這樣,你應該發佈你的代碼,然後尋求幫助。 StackOverflow不是讓人們爲你工作的地方! – mrpopo
mrpopo我很欣賞SO的方面,但他只需要兩行代碼,所以也許我們可以例外:) –
我是StackOverflow的新手!我編輯了我的帖子並添加了我的代碼。 – Zfrieden