Q

從pdf中提取段落

2011-03-15 167 views 0 likes

0

我正在做PDF電子書上的主題建模，並且需要逐段提取文本。爲此，我使用apache pdfBox，它可以有效地從pdf中提取文本。從pdf中提取段落

PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText（pdDoc）;

但我不能單獨提取段落。此工具提供了設置段落開始/結束標識符的方法，但我需要知道此段落中斷標識符。

有沒有辦法做到這一點，或者如果他們是一些其他工具可用，可以有效地做段落提取？

2011-03-15 jiteshnambiar

A

回答

1

PdfNitro是我發現提取段落的最佳工具。

此工具的唯一問題是它將分頁符視爲段落中斷，否則它工作正常。該工具可在14天內試用版本進行測試。

2011-04-17 01:47:31 Jitesh

相關問題