2013-12-12 227 views
0

感謝您的回覆。文本即將到來,但不考慮任何(空格,字體大小,側面標題,正文)。我想從pdf中讀取數據,確切地說它存在於其中。任何幫助讚賞。下面使用java中的itext將pdf文件轉換爲word文檔

這裏我的代碼被賦予是到目前爲止我的代碼:

package bis.proj.samp; 

import java.io.File; 
import java.io.FileOutputStream; 
import com.itextpdf.text.pdf.PdfReader; 
import com.itextpdf.text.pdf.parser.PdfTextExtractor; 
import com.lowagie.text.Document; 
import com.lowagie.text.Paragraph; 
import com.lowagie.text.rtf.RtfWriter2; 

public class ReadPdfFile { 

public static void main(String[] args) { 
    try { 

     Document document = new Document(); 

     File file = new File("/home/mujafar/Desktop/file.doc"); 
     if(!file.exists()) 
      file.createNewFile(); 

     RtfWriter2.getInstance(document, new FileOutputStream("/home/mujafar/Desktop/file.doc")); 
     System.out.println("file created"); 
     document.open(); 

    PdfReader reader = new PdfReader("/home/mujafar/Desktop/NPTEL Transcription Guidelines.pdf"); 
    int n = reader.getNumberOfPages(); 
    System.out.println("total no of pages:::"+n); 
    String s=""; 
    for(int i=1;i<=n;i++) 
    { 

     s=PdfTextExtractor.getTextFromPage(reader, i); 


     System.out.println("string:::"+s); 
     System.out.println("===================="); 

     document.add(new Paragraph(s)); 
     document.newPage(); 
    } 
    document.close(); 
    System.out.println("completed"); 
    } catch (Exception de) {} 
    } 

} 

回答

0

它可能更好地使用RenderListener,像這樣:

PdfReader reader = new PdfReader(inputStream); 
StringBuilder documentText = new StringBuilder(); 
RenderListener listener = new RenderListener() 
{ 
    @Override 
    public void renderText(TextRenderInfo arg0) 
    { 
     LineSegment segment = arg0.getBaseline(); 
     int x = (int)segment.getStartPoint().get(Vector.I1); 
     int y = (int)segment.getStartPoint().get(Vector.I2); 
     b.append("at "+x+"/"+y+": "+arg0.arg0.getText()); 
     b.append("\n"); 
    } 

    @Override 
    public void renderImage(ImageRenderInfo arg0) 
    { 
     // TODO 
    } 

    @Override 
    public void endTextBlock() 
    { 
    } 

    @Override 
    public void beginTextBlock() 
    { 
    } 
}; 

PdfReaderContentParser p = new PdfReaderContentParser(reader); 
for (int i = 1; i <= reader.getNumberOfPages(); i++) 
{ 
    p.processContent(i, listener); 
    b.append("\n\n(page break)\n\n"); 
} 

// b now contains the accumulated text from your PDF. 
// You could use Apache Poi to construct a DOCX with it. 
System.out.println(b.toString()); 

注意,renderText電話不一定按照它們在屏幕/紙張上出現的順序排列,您可能需要根據各種arg0對象中的X/Y座標「重構」頁面佈局。

+0

感謝您的回覆。但我不明白如何使用上述代碼。請您附上完整的代碼,從pdf文件中讀取內容(文本和圖像),並將內容寫入word文檔(doc/docx)。 – mujafar

+0

以上只是爲了得到文字,因爲這是我認爲你需要的。我會編輯它以使其更加完整。圖像和佈局留作練習。 RenderListener也有一個renderImage()方法。 – geert3

+0

感謝您的回覆。文本即將到來,但不考慮任何(空格,字體大小,側面標題,正文)。我想從pdf中讀取數據,確切地說它存在於其中。任何幫助讚賞。我的代碼如下 – mujafar

相關問題