按主題提取PDF文本

我試圖從主題中提取PDF文本。爲了做到這一點，即時通訊嘗試識別PDF中的標籤\標題。按主題提取PDF文本

到目前爲止，我已經將PDF轉換爲xml文件，以便更容易地獲取文本數據，然後使用每個中的字體\大小來除冰，如果一行是標籤或不是。這種方式的主要問題是，每個PDF可以有自己的構建，而不一定適用於其中一個PDF可以工作。

如果有人有一個想法如何克服這個問題，以便能夠在不依賴於PDF的情況下提取標籤（按主題顯示文本），我將很高興（我使用的大多數PDF是文章\書籍）不同的方式提取文本的主題也歡迎。

（作爲標記指示，我試圖做到這一點在Python）

編輯：

目前即時通訊做兩件事情：

每一行的

我的結論是：普通文本的字體最多（這個字體比所有其他文本多10行），如果你看文本大小的中位數，它的大小的正規文本。從第一個我可以刪除所有常規文本，從第二我可以採取更大的所有文本，所有的標籤將在此列表中。

現在的問題是僅從該列表中提取標籤，因爲通常存在比常規文本更大但不是標籤的文本。我嘗試使用每種字體在文本中顯示的時間量來標識標籤字體，但沒有取得太大的成功。對於每個PDF，金額可能會有所不同。

我正在尋找想法如何解決這個問題，或者如果有人知道一個工具，可以更容易地做到這一點。

2016-04-03 rfire

我會建議學習許多pdf並寫下每個pdf標籤的文字大小。然後，您可以對前5個最高字體進行平均，並對前5個最低字體進行平均。現在，您可以在它們之間創建一個範圍，並檢查文本是否在該文本大小範圍內。這種方法不會一直工作，但會覆蓋大部分pdf。（您學習的pdf越多越好）

2016-04-03 12:08:24

回答