我需要從pdf文件中檢索一些與關鍵字相關的數據。這些是關鍵字:標題,pdf的範圍,誰提出了pdf,版本,摘要,狀態,監管機構。從pdf中檢索特定部分的數據
有什麼工具可以從pdf中檢索數據嗎? 由於提前
我需要從pdf文件中檢索一些與關鍵字相關的數據。這些是關鍵字:標題,pdf的範圍,誰提出了pdf,版本,摘要,狀態,監管機構。從pdf中檢索特定部分的數據
有什麼工具可以從pdf中檢索數據嗎? 由於提前
使用PDFBOX
public class PDFTextReader
{
static String pdftoText(String fileName) {
PDFParser parser;
String parsedText = null;
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(fileName);
if (!file.isFile()) {
System.err.println("File " + fileName + " does not exist.");
return null;
}
try {
parser = new PDFParser(new FileInputStream(file));
} catch (IOException e) {
System.err.println("Unable to open PDF Parser. " + e.getMessage());
return null;
}
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
// pdfStripper.setParagraphStart(FIND_START_VALUE);
// pdfStripper.setParagraphEnd("FIND_END_VALUE);
parsedText = pdfStripper.getText(pdDoc);
} catch (Exception e) {
System.err
.println("An exception occured in parsing the PDF Document."
+ e.getMessage());
} finally {
try {
if (cosDoc != null)
cosDoc.close();
if (pdDoc != null)
pdDoc.close();
} catch (Exception e) {
e.printStackTrace();
}
}
return parsedText;
}
public static void main(String args[]){
System.out.println(pdftoText(FILEPATH));
}
}
這裏我想這提取部分。這可能會幫助你。
我想檢索內容相關的數據與內容...像標題包含標題名稱等等...在這裏我想提取標題和標題名稱。我會給只有標題它應該檢索所有pdf的標題名稱 – Subbu
剩下的所有數據都不需要什麼關鍵字,我只通過我想要的數據。 – Subbu