我有2列格式的pdf。我能夠解析它爲簡單的文本,但這些pdf也有圖像之間。因此,我的文本輸出混亂起來,爲PDF中間有圖像的特定頁面。帶圖像的IText Pdf閱讀器
例如,考慮一個2列頁面格式
圖片文本2
圖片圖片
圖片文本3
文本1圖片
Text4
輸出是 文本4文本3文本2文本1而不是文字1 Text2 Text3 Text4
任何解決方案,以閱讀正確的順序文本?
我使用下面的代碼
public void parsePdf(String pdf, String txt) throws IOException {
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
TextExtractionStrategy strategy;
for (int i = 76; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
out.println(strategy.getResultantText());
}
out.flush();
out.close();
}