2016-10-06 159 views
-1

我每天必須輸入15+ PDF才能進入數據庫。它們是從表中填入「空白」的表格生成的。我可以使用任何工具或python代碼示例來嘗試開發一種從PDF中提取數據以寫入或創建表以導入數據庫表的方法?數據庫目前是Access mdb。 謝謝從PDF中提取數據

+0

請注意,[提出異地資源建議的問題是堆棧溢出的主題](// meta.stackoverflow.com/q/251134/2747593)。相反,如果你對你寫的代碼有一個具體的問題,請告訴我們[你試過的](http://whathaveyoutried.com),並且一定要包含[mcve]。另見[問]。 –

回答

0

有一些方法可以工作。 一個簡單的方法是簡單地將PDF文件打印到文本文件中,然後使用Access導入該文本。所有最新版本的Windows允許您安裝一個「文本」打印機,用於將文檔打印輸出到文本文件。您可以訪問「處理」pdf文件夾,將其打印到文本,然後導入這些文本文件。在將數據導入Access之前,您可能需要一些VBA刪除「頁面」和一些額外的行。

另一種方法是使用Word(自動訪問)打開PDF。當word打開pdf時,它會將其轉換爲word文檔。這種方法甚至會將行格式化爲單詞表格。然後,您可以提取該表格數據並將該數據發送至單詞。您可能會在不將數據寫入文本文件的情況下將文本拉出來,或者將文本文件「save-as」用於文本文件(您可以通過Access自動執行此過程)。

另一種方法是使用免費的Ghost腳本庫,可以從PDF中提取文本(我會考慮如果沒有可供您使用的詞)。

那麼最好的解決方案很大程度上取決於您將在運行Access的計算機上安裝的當前軟件。用word打開PDF文件將是我的第一選擇和測試。

+0

這對我有用,我沒有得到實現整個​​解決方案,但我有一種格式,我可以搜索並從中提取數據。謝謝您的幫助 –

0

在我以前的工作中,我們使用了Cogniview,它很快將PDF轉換爲Excel電子表格。如果你想使用Python,快速搜索讓我覺得這似乎很直接,PDF to XLS with Python

+0

我看到了用於轉換但不是Python的API的網絡工具,但是在測試之後有兩個問題;它是免費的限制,它是一個網絡工具。 API只是讓Python連接到服務器。我不希望這些pdf被公開,所以這個工具是不幸的。然而,你的迴應確實讓我轉向了PDFQuery和PDF Miner,我正在python27中玩弄它。瞭解這兩個模塊的任何資源? –

+0

我個人從未使用過這些。我確信除了[this]外,還有一些優秀的文檔(https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf)和[this](https:// www .binpress.com /教程/操縱的PDF文件中與 - 蟒/ 167)。祝你好運! –