我試圖從主題中提取PDF文本。 爲了做到這一點,即時通訊嘗試識別PDF中的標籤\標題。按主題提取PDF文本
到目前爲止,我已經將PDF轉換爲xml文件,以便更容易地獲取文本數據,然後使用每個中的字體\大小來除冰,如果一行是標籤或不是。 這種方式的主要問題是,每個PDF可以有自己的構建,而不一定適用於其中一個PDF可以工作。
如果有人有一個想法如何克服這個問題,以便能夠在不依賴於PDF的情況下提取標籤(按主題顯示文本),我將很高興(我使用的大多數PDF是文章\書籍) 不同的方式提取文本的主題也歡迎。
(作爲標記指示,我試圖做到這一點在Python)
編輯:
目前即時通訊做兩件事情:
每一行的檢查字體
檢查每一行文字大小
我的結論是:普通文本的字體最多(這個字體比所有其他文本多10行),如果你看文本大小的中位數,它的大小的正規文本。 從第一個我可以刪除所有常規文本,從第二我可以採取更大的所有文本,所有的標籤將在此列表中。
現在的問題是僅從該列表中提取標籤,因爲通常存在比常規文本更大但不是標籤的文本。 我嘗試使用每種字體在文本中顯示的時間量來標識標籤字體,但沒有取得太大的成功。對於每個PDF,金額可能會有所不同。
我正在尋找想法如何解決這個問題,或者如果有人知道一個工具,可以更容易地做到這一點。