從PDF中提取蟒流

我怎樣才能提取該流的一部分（一個名爲BLABLABLA）從包含它的PDF文件？從PDF中提取蟒流

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

或者，在其他的世界裏，我怎樣才能從pdf流中提取一個子鍵？

我想用一些Python的庫（如pyPdf或ReportLab的），但即使是一些C/C++的lib應該很適合我。

任何人都可以幫助我嗎？

來源

2009-01-09 Giancarlo

IIUC，在PDF流僅僅是一個二進制數據序列。我想你想要提取一個對象的一部分。你想要一個標準的對象，如圖像或文字？如果有真實的例子，給你示例代碼會容易得多。

這可能會幫助你開始：

import pyPdf 
pdf = pyPdf.PdfFileReader(open("pdffile.pdf")) 
list(pdf.pages) # Process all the objects. 
print pdf.resolvedObjects

來源

2009-01-11 22:06:59

我沒有這個使用自己，但也許the gfx module in swftool可以幫助你。

來源

2009-01-09 23:41:20 user49117

谷歌代碼有一個名爲pdf miner蟒文本提取工具。我不知道它是否會做你想要的，但它可能值得一看。

來源

2009-01-10 12:43:35 Ferruccio

從PDF中提取蟒流

回答

相關問題