從PDF中提取數據

-1

我每天必須輸入15+ PDF才能進入數據庫。它們是從表中填入「空白」的表格生成的。我可以使用任何工具或python代碼示例來嘗試開發一種從PDF中提取數據以寫入或創建表以導入數據庫表的方法？數據庫目前是Access mdb。謝謝從PDF中提取數據

來源

2016-10-06 Tyler Veinot

請注意，[提出異地資源建議的問題是堆棧溢出的主題]（// meta.stackoverflow.com/q/251134/2747593）。相反，如果你對你寫的代碼有一個具體的問題，請告訴我們[你試過的]（http://whathaveyoutried.com），並且一定要包含[mcve]。另見[問]。 –

有一些方法可以工作。一個簡單的方法是簡單地將PDF文件打印到文本文件中，然後使用Access導入該文本。所有最新版本的Windows允許您安裝一個「文本」打印機，用於將文檔打印輸出到文本文件。您可以訪問「處理」pdf文件夾，將其打印到文本，然後導入這些文本文件。在將數據導入Access之前，您可能需要一些VBA刪除「頁面」和一些額外的行。

另一種方法是使用Word（自動訪問）打開PDF。當word打開pdf時，它會將其轉換爲word文檔。這種方法甚至會將行格式化爲單詞表格。然後，您可以提取該表格數據並將該數據發送至單詞。您可能會在不將數據寫入文本文件的情況下將文本拉出來，或者將文本文件「save-as」用於文本文件（您可以通過Access自動執行此過程）。

另一種方法是使用免費的Ghost腳本庫，可以從PDF中提取文本（我會考慮如果沒有可供您使用的詞）。

那麼最好的解決方案很大程度上取決於您將在運行Access的計算機上安裝的當前軟件。用word打開PDF文件將是我的第一選擇和測試。

來源

2016-10-08 05:07:46

這對我有用，我沒有得到實現整個解決方案，但我有一種格式，我可以搜索並從中提取數據。謝謝您的幫助 –

在我以前的工作中，我們使用了Cogniview，它很快將PDF轉換爲Excel電子表格。如果你想使用Python，快速搜索讓我覺得這似乎很直接，PDF to XLS with Python

來源

2016-10-06 18:36:42

我看到了用於轉換但不是Python的API的網絡工具，但是在測試之後有兩個問題;它是免費的限制，它是一個網絡工具。 API只是讓Python連接到服務器。我不希望這些pdf被公開，所以這個工具是不幸的。然而，你的迴應確實讓我轉向了PDFQuery和PDF Miner，我正在python27中玩弄它。瞭解這兩個模塊的任何資源？ –

我個人從未使用過這些。我確信除了[this]外，還有一些優秀的文檔（https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf）和[this]（https：// www .binpress.com /教程/操縱的PDF文件中與 - 蟒/ 167）。祝你好運！ –

從PDF中提取數據

回答

相關問題