0
我正在嘗試提取PDF文件的各個部分,以用於文本分析。我嘗試使用pdfextract來完成此操作。然而,一個命令,例如提取PDF部分
pdf-extract extract --regions --no-lines Bauer2010.pdf
僅提取的區域的座標(x,y)
,如在下面的例子。
<region x="226.32" y="750.47" width="165.57" height="6.37"
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and
Counseling 79 (2010) 315-319</region>
是否可以提取PDF的各個部分?
你可能應該明確你的意思是「PDF的各個部分」? – mkl