2017-01-23 68 views
-3

我有一個pdf文件列表,其中包含不同數量的頁面和演示文稿。 每個文件都包含我需要提取的信息列表。但問題是信息被包裝在不同類型的短語和句法中。 我需要知道如果我需要建立一臺機器學習做這個,如果這是算法和技術適合我的情況。 注:我有一個龐大的pdf文件數據集來訓練模型。機器學習:從文件列表中提取關鍵字

+0

您的問題是簡單地提取信息還是一經提取就分析?如果後者是這種情況,你的分析的目的是什麼?沒有這些信息,任何人都無法指導你。另外提及你迄今爲止提取文本所嘗試的內容。 – Fruitspunchsamurai

+0

現在我只需要提取這些信息。 – abderr080

+0

您能舉一個例子來說明您的問題中數據的結構嗎?根據數據的結構,你可以使用[Tabula](http://tabula.technology/)。 – Fruitspunchsamurai

回答

0

所以如果你想在Python中做到這一點,似乎PyPDF2是要走的路。您應該能夠閱讀並從PDF中提取所需的文本數據。 Automate the boring stuff有使用PyPDF2的例子。

+0

我使用pypdf2與ocr結合使用,因爲我掃描了pdf以從pdf文件中獲取文本。我關心的是如何從本文中提取一些信息,如公司名稱,頻率,模塊名稱等。這些信息被包裝在不同的上下文和短語中。我的pdf也是由表格構成的,我無法在文本轉換後變得格式良好。 – abderr080

+0

上下文和短語是否有一些基礎結構?如果你自己無法辨別數據的底層結構,我不確定你可以寫些什麼。有沒有一種方法可以使用正則表達式來搜索公司名稱和其他東西? – Fruitspunchsamurai

+0

感謝您的回覆。我想我現在要搜索數據的結構。我認爲Tabula可能對錶格分析有很好的幫助。 – abderr080