我每天必須輸入15+ PDF才能進入數據庫。它們是從表中填入「空白」的表格生成的。我可以使用任何工具或python代碼示例來嘗試開發一種從PDF中提取數據以寫入或創建表以導入數據庫表的方法?數據庫目前是Access mdb。 謝謝從PDF中提取數據
回答
有一些方法可以工作。 一個簡單的方法是簡單地將PDF文件打印到文本文件中,然後使用Access導入該文本。所有最新版本的Windows允許您安裝一個「文本」打印機,用於將文檔打印輸出到文本文件。您可以訪問「處理」pdf文件夾,將其打印到文本,然後導入這些文本文件。在將數據導入Access之前,您可能需要一些VBA刪除「頁面」和一些額外的行。
另一種方法是使用Word(自動訪問)打開PDF。當word打開pdf時,它會將其轉換爲word文檔。這種方法甚至會將行格式化爲單詞表格。然後,您可以提取該表格數據並將該數據發送至單詞。您可能會在不將數據寫入文本文件的情況下將文本拉出來,或者將文本文件「save-as」用於文本文件(您可以通過Access自動執行此過程)。
另一種方法是使用免費的Ghost腳本庫,可以從PDF中提取文本(我會考慮如果沒有可供您使用的詞)。
那麼最好的解決方案很大程度上取決於您將在運行Access的計算機上安裝的當前軟件。用word打開PDF文件將是我的第一選擇和測試。
這對我有用,我沒有得到實現整個解決方案,但我有一種格式,我可以搜索並從中提取數據。謝謝您的幫助 –
在我以前的工作中,我們使用了Cogniview,它很快將PDF轉換爲Excel電子表格。如果你想使用Python,快速搜索讓我覺得這似乎很直接,PDF to XLS with Python
我看到了用於轉換但不是Python的API的網絡工具,但是在測試之後有兩個問題;它是免費的限制,它是一個網絡工具。 API只是讓Python連接到服務器。我不希望這些pdf被公開,所以這個工具是不幸的。然而,你的迴應確實讓我轉向了PDFQuery和PDF Miner,我正在python27中玩弄它。瞭解這兩個模塊的任何資源? –
我個人從未使用過這些。我確信除了[this]外,還有一些優秀的文檔(https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf)和[this](https:// www .binpress.com /教程/操縱的PDF文件中與 - 蟒/ 167)。祝你好運! –
- 1. 從pdf中提取數據
- 2. c#從pdf文件中提取數據
- 3. PDF數據提取
- 4. 從pdf中提取區域
- 5. 從PDF中提取圖像
- 6. 從Apache Solr中提取PDF
- 7. 從PDF中提取標籤
- 8. 從pdf中提取段落
- 9. 從PDF中提取表格
- 10. 從PDF中提取圖像
- 11. 從PDF中提取蟒流
- 12. 從PDF提取圖
- 13. 從PDF中的嵌套表中提取數據
- 14. 如何從PDF中提取數據並存儲在MySQL中
- 15. 從PDF中提取數據並導入到Excel .NET
- 16. 用於從PDF中提取數據的自然語言處理
- 17. pdf從excel文件中提取數據集
- 18. 使用錯誤的結構OCR從PDF中提取數據
- 19. 從PDF中提取表格數據並對其進行排序
- 20. 如何從PDF中提取嵌入式OCR數據?
- 21. 從PDF中提取數據的最簡單方法是什麼?
- 22. 使用網頁收集從PDF中提取數據
- 23. 提取從PDF數據流中的文本在PHP
- 24. 我無法從嵌入式PDF中提取數據(Ruby)
- 25. 從Access數據庫中提取OLE對象(pdf)
- 26. 從很多PDF表格中提取數據
- 27. 從pdf獲取機械化數據提取和文本識別
- 28. 從twitter中提取數據
- 29. 從fullcalendar中提取數據
- 30. 從NSArray中提取數據
請注意,[提出異地資源建議的問題是堆棧溢出的主題](// meta.stackoverflow.com/q/251134/2747593)。相反,如果你對你寫的代碼有一個具體的問題,請告訴我們[你試過的](http://whathaveyoutried.com),並且一定要包含[mcve]。另見[問]。 –