打開pdf並使用python熊貓閱讀表格

是否可以使用python熊貓打開PDF並閱讀它，還是必須使用此功能的pandas剪貼板？打開pdf並使用python熊貓閱讀表格

2014-04-25 ccsv

這是不可能的。 PDF是用於打印的數據格式。表結構因此丟失。有些運氣可以用pypdf來提取文本，並猜測前面的表格列。

2014-04-25 06:27:16 Daniel

如何使用'pd.read_clipboard（）'並手動複製它？桌子會工作嗎？我只是不喜歡手動輸入pdf中的所有內容 – ccsv

@ccsv：誰填寫剪貼板？這個程序有猜測表的結構，與 – Daniel

相同的問題！我希望能以pdf格式快速閱讀表格。 – ccsv

如果是一次性的，可以將PDF表中的數據複製到文本文件中，格式化（使用搜索替換，Notepad ++宏，腳本），將其保存爲CSV文件並將其加載到Pandas中。

如果您需要以可伸縮的方式執行此操作，您可以嘗試此產品：http://tabula.technology/。我還沒有使用它，所以我不知道它的工作效果如何，但是如果你需要它，你可以探索它。

2016-01-27 04:58:00

從PDF中複製表格數據並粘貼到Excel文件中（通常將其粘貼爲單列而非多列）。然後使用FlashFill（在Excel 2016中提供，不確定早期的Excel版本）將數據分成最初在PDF中查看的列。該過程快速而簡單。然後使用Pandas來調整Excel數據。

2016-12-14 01:49:03 JMM

回答