我在pypdf2的幫助下裁剪了一個pdf文件,但是當我嘗試從裁剪的pdf文件中提取文本時,我正在獲取整個pdf頁面的文本。我該如何解決這個問題?即使PDF文件被裁剪後,整個頁面的內容仍然存在
但之後當我運行命令pdftotext out8.pdf out.txt
我得到:
內容 介紹 第一部分一國兩制
的故事中的人物
關注和努力
懶惰控制器
聯想機
- 認知易於
- 規範,驚喜,原因
- 了一臺機器過早下結論
- 如何判斷髮生
- 回答問題更容易 第二部分。小數字的啓發式和偏見
- 法 < 5>
- 錨
- 可用性
- 可用性,情感與風險的科學
- 湯姆·W公司的專業
產量爲應該只是
- 故事
的字符代碼,我跑
from PyPDF2 import PdfFileWriter, PdfFileReader
input1 = PdfFileReader(open("./data/in2.pdf", "rb"))
output = PdfFileWriter()
page = input1.getPage(1)
x = page.mediaBox.getUpperRight_x()
y = page.mediaBox.getUpperRight_y()
page.cropBox.lowerRight = (0,331-150)
page.cropBox.upperRight = (252,331)
output.addPage(page)
outputStream = open("out8.pdf", "wb")
output.write(outputStream)
outputStream.close()
薩諾斯我最喜歡的所有時間Villians之一。我最喜歡的引用是在Thanos Quest Book 2中。「誰會想到成爲上帝會是一場空洞的勝利。」 –
@斯科特波士頓啊你回來了太多了:)我也愛Thanos。我是一個奇蹟的巨大粉絲。等待無限的戰爭。 – Dark