0
我正在做PDF電子書上的主題建模,並且需要逐段提取文本。爲此,我使用apache pdfBox,它可以有效地從pdf中提取文本。從pdf中提取段落
PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText(pdDoc);
但我不能單獨提取段落。此工具提供了設置段落開始/結束標識符的方法,但我需要知道此段落中斷標識符。
有沒有辦法做到這一點,或者如果他們是一些其他工具可用,可以有效地做段落提取?