0
感謝您的回覆。文本即將到來,但不考慮任何(空格,字體大小,側面標題,正文)。我想從pdf中讀取數據,確切地說它存在於其中。任何幫助讚賞。下面使用java中的itext將pdf文件轉換爲word文檔
這裏我的代碼被賦予是到目前爲止我的代碼:
package bis.proj.samp;
import java.io.File;
import java.io.FileOutputStream;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import com.lowagie.text.Document;
import com.lowagie.text.Paragraph;
import com.lowagie.text.rtf.RtfWriter2;
public class ReadPdfFile {
public static void main(String[] args) {
try {
Document document = new Document();
File file = new File("/home/mujafar/Desktop/file.doc");
if(!file.exists())
file.createNewFile();
RtfWriter2.getInstance(document, new FileOutputStream("/home/mujafar/Desktop/file.doc"));
System.out.println("file created");
document.open();
PdfReader reader = new PdfReader("/home/mujafar/Desktop/NPTEL Transcription Guidelines.pdf");
int n = reader.getNumberOfPages();
System.out.println("total no of pages:::"+n);
String s="";
for(int i=1;i<=n;i++)
{
s=PdfTextExtractor.getTextFromPage(reader, i);
System.out.println("string:::"+s);
System.out.println("====================");
document.add(new Paragraph(s));
document.newPage();
}
document.close();
System.out.println("completed");
} catch (Exception de) {}
}
}
感謝您的回覆。但我不明白如何使用上述代碼。請您附上完整的代碼,從pdf文件中讀取內容(文本和圖像),並將內容寫入word文檔(doc/docx)。 – mujafar
以上只是爲了得到文字,因爲這是我認爲你需要的。我會編輯它以使其更加完整。圖像和佈局留作練習。 RenderListener也有一個renderImage()方法。 – geert3
感謝您的回覆。文本即將到來,但不考慮任何(空格,字體大小,側面標題,正文)。我想從pdf中讀取數據,確切地說它存在於其中。任何幫助讚賞。我的代碼如下 – mujafar