我有一個pdf文件列表,其中包含不同數量的頁面和演示文稿。 每個文件都包含我需要提取的信息列表。但問題是信息被包裝在不同類型的短語和句法中。 我需要知道如果我需要建立一臺機器學習做這個,如果這是算法和技術適合我的情況。 注:我有一個龐大的pdf文件數據集來訓練模型。機器學習:從文件列表中提取關鍵字
回答
所以如果你想在Python中做到這一點,似乎PyPDF2是要走的路。您應該能夠閱讀並從PDF中提取所需的文本數據。 Automate the boring stuff有使用PyPDF2的例子。
我使用pypdf2與ocr結合使用,因爲我掃描了pdf以從pdf文件中獲取文本。我關心的是如何從本文中提取一些信息,如公司名稱,頻率,模塊名稱等。這些信息被包裝在不同的上下文和短語中。我的pdf也是由表格構成的,我無法在文本轉換後變得格式良好。 – abderr080
上下文和短語是否有一些基礎結構?如果你自己無法辨別數據的底層結構,我不確定你可以寫些什麼。有沒有一種方法可以使用正則表達式來搜索公司名稱和其他東西? – Fruitspunchsamurai
感謝您的回覆。我想我現在要搜索數據的結構。我認爲Tabula可能對錶格分析有很好的幫助。 – abderr080
- 1. 機器學習,從字符串中提取信息
- 2. 使用NLP或機器學習來提取關鍵字把句子
- 3. 自動/機器學習工具從文本中提取分類/上下文
- 4. 如何使用機器學習從文檔中提取更大的文本塊?
- 5. 從文章中提取關鍵字
- 6. 機器學習 - 從一個文檔
- 7. 關於機器學習,統計學習算法
- 8. 機器學習在Python:scikit學習/ Pybrain
- 9. 深度學習與機器學習
- 10. 學習Java,使用synchronized關鍵字
- 11. 機器學習,Python
- 12. 機器學習udacity
- 13. Bot中的機器學習
- 14. GATE中的機器學習
- 15. Weka機器學習:ARFF文件:多重關係
- 16. 關於weka的機器學習教程
- 17. 機器學習:轉換數組到字典列表
- 18. Python找到,從列表中提取關鍵字循環
- 19. 從Excel或Google電子表格列中提取關鍵字
- 20. 從列表中提取關鍵字,然後使用`和`
- 21. 機器學習形狀和類型的機器學習
- 22. 用於學習字符串模式的機器學習技術
- 23. 關鍵字提取軟件
- 24. 機器學習 - 通過示例學習文件格式的軟件
- 25. 學習C++ - 從文件中讀取數字
- 26. 正則表達式從推文中提取關鍵字
- 27. 機器學習 - 感知器
- 28. 學習機器學習的先決條件是什麼?
- 29. 如何使用機器學習從音頻片段中提取人聲?
- 30. 從RandomForest提取知識(scikit學習)
您的問題是簡單地提取信息還是一經提取就分析?如果後者是這種情況,你的分析的目的是什麼?沒有這些信息,任何人都無法指導你。另外提及你迄今爲止提取文本所嘗試的內容。 – Fruitspunchsamurai
現在我只需要提取這些信息。 – abderr080
您能舉一個例子來說明您的問題中數據的結構嗎?根據數據的結構,你可以使用[Tabula](http://tabula.technology/)。 – Fruitspunchsamurai