2012-01-05 120 views

回答

4

文本文件本身不能包含格式。

您不能在純文本文件中保留格式,因爲它只包含文本。文本文件中可能會有HTML標記,但我會將其稱爲HTML文件。否則,您應該嘗試將其轉換爲富文本格式(RTF),Microsoft Word,OpenOffice或其他文檔類型。

1

這可以幫助你。

File f = new File(fileName); 
     if (!f.isFile()) { 
      return null; 
     } 


     try { 
      parser = new PDFParser(new FileInputStream(f)); 
     } catch (Exception e) { 
      return null; 
     } 

     try { 
      parser.parse(); 
      cosDoc = parser.getDocument(); 
      pdfStripper = new PDFTextStripper(); 
      /* pdfStripper.setStartPage(2); 
      pdfStripper.setEndPage(3);*/ 
      pdDoc = new PDDocument(cosDoc); 
      parsedText = pdfStripper.getText(pdDoc); 
     } catch (Exception e) { 
      System.out.println("An exception occured in parsing the PDF Document."); 
      e.printStackTrace(); 
      try { 
        if (cosDoc != null) cosDoc.close(); 
        if (pdDoc != null) pdDoc.close(); 
       } catch (Exception e1) { 
       e.printStackTrace(); 
      } 
      return null; 
     }