2016-04-03 34 views
0

我試圖從主題中提取PDF文本。 爲了做到這一點,即時通訊嘗試識別PDF中的標籤\標題。按主題提取PDF文本

到目前爲止,我已經將PDF轉換爲xml文件,以便更容易地獲取文本數據,然後使用每個中的字體\大小來除冰,如果一行是標籤或不是。 這種方式的主要問題是,每個PDF可以有自己的構建,而不一定適用於其中一個PDF可以工作。

如果有人有一個想法如何克服這個問題,以便能夠在不依賴於PDF的情況下提取標籤(按主題顯示文本),我將很高興(我使用的大多數PDF是文章\書籍) 不同的方式提取文本的主題也歡迎。

(作爲標記指示,我試圖做到這一點在Python)

編輯:

目前即時通訊做兩件事情:

每一行的
  1. 檢查字體

  2. 檢查每一行文字大小

我的結論是:普通文本的字體最多(這個字體比所有其他文本多10行),如果你看文本大小的中位數,它的大小的正規文本。 從第一個我可以刪除所有常規文本,從第二我可以採取更大的所有文本,所有的標籤將在此列表中。

現在的問題是僅從該列表中提取標籤,因爲通常存在比常規文本更大但不是標籤的文本。 我嘗試使用每種字體在文本中顯示的時間量來標識標籤字體,但沒有取得太大的成功。對於每個PDF,金額可能會有所不同。

我正在尋找想法如何解決這個問題,或者如果有人知道一個工具,可以更容易地做到這一點。

回答

1

我會建議學習許多pdf並寫下每個pdf標籤的文字大小。然後,您可以對前5個最高字體進行平均,並對前5個最低字體進行平均。現在,您可以在它們之間創建一個範圍,並檢查文本是否在該文本大小範圍內。 這種方法不會一直工作,但會覆蓋大部分pdf。 (您學習的pdf越多越好)