提取PDF部分

我正在嘗試提取PDF文件的各個部分，以用於文本分析。我嘗試使用pdfextract來完成此操作。然而，一個命令，例如提取PDF部分

pdf-extract extract --regions --no-lines Bauer2010.pdf

僅提取的區域的座標(x,y)，如在下面的例子。

<region x="226.32" y="750.47" width="165.57" height="6.37" 
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and 
Counseling 79 (2010) 315-319</region>

是否可以提取PDF的各個部分？

來源

2016-07-29 Adam_G

你可能應該明確你的意思是「PDF的各個部分」？ – mkl

看看http://text-analyzer.com你可以上傳你的PDF文件，它會將它轉換成適合自然語言處理的格式。一旦轉換成文本文件，它就可以處理文件，並通過情感分析將其分解成句子。它有超過40種不同類型的句子視圖，您可以在這些視圖上標記章節。那些標記的句子可以導出。

來源

2016-08-29 23:08:15 Rob

回答

相關問題