我正在使用PDFBox從PDF中提取文本。 PDF有一個表格結構,它非常簡單,列間距也非常寬。保留PDFBox文本提取中的「long」空格
這個工作非常好,除了所有類型的水平空間都被轉換爲單個空格字符,所以我不能再分開各列(一列中的空格看起來就像列之間的空格)。
我明白,一個通用的解決方案是很辛苦,但在這種情況下,列是真的相距甚遠,使得具有「長間隔」和「字與字之間的空間」之間的簡單區別就足夠了。
有沒有辦法告訴PDFBox將多於x英寸的水平空白轉換爲單個空間以外的東西?比例方法(x英寸變成y空格)也可以工作。
pdftotext C library/tool有一個'-layout'開關,試圖保留佈局。基本上,如果我可以用PDFBox來模擬,那將是完美的。
你可能想看看[這個答案](https://stackoverflow.com/a/45842515/1729265)。 – mkl 2017-10-16 04:18:41