我想問一個關於iText的問題。 我正在尋找PDF文件中的文本時遇到問題。iText是否支持OCR?
我可以用getTextfromPage()
方法創建一個純文本文件,如下面的代碼示例中描述:
/** The original PDF that will be parsed. */
public static final String PREFACE = "D:/B.pdf";
/** The resulting text file. */
public static final String RESULT = "D:/Result.txt";
public void ParsePDF(String From, String Destination) throws IOException{
PdfReader reader = new PdfReader(PREFACE);
PrintWriter out = new PrintWriter(new FileOutputStream(RESULT));
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
out.println(PdfTextExtractor.getTextFromPage(reader, i));
}
out.flush();
out.close();
reader.close();
}
我試圖找到在結果文本像這樣的特定String
:
public void FindWords(String From) {
try{
String ligneLue;
LineNumberReader lnr=new LineNumberReader(new FileReader(RESULT));
try{
while((ligneLue=lnr.readLine())!=null){
SearchForSVHC(ligneLue,SvhcList);
}
}
finally{
lnr.close();
}
}
catch(IOException e){
System.out.println(e);}
}
public void SearchForSVHC(String Ligne,List<String> List){
for(String CAS :List){
if(Ligne.contains(CAS)){
System.out.print("Yes "+CAS);
break;
}}
}
我的問題是,我解析的一些PDF包含掃描圖像,這意味着沒有真正的文本,只是像素。
iText是否支持光學字符識別(OCR)並作爲後續問題:是否有方法可以確定PDF是否由掃描圖像組成?
謝謝@Bruno Lowagie –
不,它沒有看到這個文檔的最後一行http://www.itextpdf.com/itext.php – 2013-05-15 13:17:41