2013-01-23 102 views
0

使用PDF Box可以快速獲取PDF文檔頁面的快照嗎?我想用關鍵詞匹配PDF文件中的頁面,然後顯示找到該文本的頁面的快照。任何人都可以指出我應該從哪裏開始?我計劃使用Lucene和PDF框爲此,與C#。帶快照的全文搜索引擎

回答

1

是的,你可以使用pdfbox來做到這一點。事情是這樣的:

pdf = PDDocument.load(inputStream); 
// this gets you page 1 
byte[] bytes = getImageBytes(pdf, 1); 
// write out bytes as an image file 

和不過,我想你會得到更好的xpdf結果,您可以提取使用PDFTextStripper.getText()

文本等等 - 這是更加成熟,支持更多的PDF品種。

+0

Wil檢查出來:) –