我試圖加載PDF文件,所以我可以將其作爲圖像提取出來。我在Python中嘗試了幾個包,例如PyPDF2,但每次遇到消息「無法在指定位置找到外部參照表」。找不到x-ref表格PDF
我沒有任何使用PDF和Python的經驗,所以我們將不勝感激。示例文件在這裏給出:
https://beta.companieshouse.gov.uk/company/00002404/filing-history
,其中PDF是「充滿賬戶」鏈接。
非常感謝提前!
我試圖加載PDF文件,所以我可以將其作爲圖像提取出來。我在Python中嘗試了幾個包,例如PyPDF2,但每次遇到消息「無法在指定位置找到外部參照表」。找不到x-ref表格PDF
我沒有任何使用PDF和Python的經驗,所以我們將不勝感激。示例文件在這裏給出:
https://beta.companieshouse.gov.uk/company/00002404/filing-history
,其中PDF是「充滿賬戶」鏈接。
非常感謝提前!
有問題的PDF已損壞:交叉引用表的偏移量和大部分對象偏移量都是錯誤的。
例如PDF聲稱交叉參考表從文件位置24732開始,但實際上從位置1594356開始。而對象208的交叉參考表條目聲稱它位於位置24713,而實際上位於1594337.
因此,觀察到的錯誤信息「在指定位置找不到外部參照表」是完全正確的。
雖然表中的第一個偏移量是正確的,但乍一看是第一個圖像流。
看起來好像生成PDF的軟件在確定對象偏移量時不計算圖像流內容。或者它佔用了佔位符圖像非常小的模板,並將這些小圖像的圖像流替換爲更大的流,而無需更新交叉參考偏移。
謝謝你的採訪。我在這裏有沒有解決方法?我只是想將其轉換爲圖像來提取文本。 –
在Adobe Reader中打開PDF。當你再次關閉它時,Adobe Reader會詢問你是否應該保存它。保存的副本被修復。 (但是,Adobe Reader可能會使用PDF 1.5中提供的功能保存該文件;但仍有一些工具和庫無法處理這些功能。)或者,您可以將圖像從Adobe Reader複製到圖形您選擇的程序。 – mkl
謝謝,我欣賞的意見:)你會碰巧知道是否會有一個很好的方法來實現這一點?我可能正在處理數千個類似的文件。 –