機器學習：從文件列表中提取關鍵字

-3

我有一個pdf文件列表，其中包含不同數量的頁面和演示文稿。每個文件都包含我需要提取的信息列表。但問題是信息被包裝在不同類型的短語和句法中。我需要知道如果我需要建立一臺機器學習做這個，如果這是算法和技術適合我的情況。注：我有一個龐大的pdf文件數據集來訓練模型。機器學習：從文件列表中提取關鍵字

2017-01-23 abderr080

您的問題是簡單地提取信息還是一經提取就分析？如果後者是這種情況，你的分析的目的是什麼？沒有這些信息，任何人都無法指導你。另外提及你迄今爲止提取文本所嘗試的內容。 – Fruitspunchsamurai

現在我只需要提取這些信息。 – abderr080

您能舉一個例子來說明您的問題中數據的結構嗎？根據數據的結構，你可以使用[Tabula]（http://tabula.technology/）。 – Fruitspunchsamurai

所以如果你想在Python中做到這一點，似乎PyPDF2是要走的路。您應該能夠閱讀並從PDF中提取所需的文本數據。 Automate the boring stuff有使用PyPDF2的例子。

2017-01-23 18:41:24 Fruitspunchsamurai

我使用pypdf2與ocr結合使用，因爲我掃描了pdf以從pdf文件中獲取文本。我關心的是如何從本文中提取一些信息，如公司名稱，頻率，模塊名稱等。這些信息被包裝在不同的上下文和短語中。我的pdf也是由表格構成的，我無法在文本轉換後變得格式良好。 – abderr080

上下文和短語是否有一些基礎結構？如果你自己無法辨別數據的底層結構，我不確定你可以寫些什麼。有沒有一種方法可以使用正則表達式來搜索公司名稱和其他東西？ – Fruitspunchsamurai

感謝您的回覆。我想我現在要搜索數據的結構。我認爲Tabula可能對錶格分析有很好的幫助。 – abderr080

回答