0
使用PDF Box可以快速獲取PDF文檔頁面的快照嗎?我想用關鍵詞匹配PDF文件中的頁面,然後顯示找到該文本的頁面的快照。任何人都可以指出我應該從哪裏開始?我計劃使用Lucene和PDF框爲此,與C#。帶快照的全文搜索引擎
使用PDF Box可以快速獲取PDF文檔頁面的快照嗎?我想用關鍵詞匹配PDF文件中的頁面,然後顯示找到該文本的頁面的快照。任何人都可以指出我應該從哪裏開始?我計劃使用Lucene和PDF框爲此,與C#。帶快照的全文搜索引擎
是的,你可以使用pdfbox來做到這一點。事情是這樣的:
pdf = PDDocument.load(inputStream);
// this gets you page 1
byte[] bytes = getImageBytes(pdf, 1);
// write out bytes as an image file
和不過,我想你會得到更好的xpdf結果,您可以提取使用PDFTextStripper.getText()
文本等等 - 這是更加成熟,支持更多的PDF品種。
Wil檢查出來:) –