2014-04-25 60 views

回答

2

這是不可能的。 PDF是用於打印的數據格式。表結構因此丟失。有些運氣可以用pypdf來提取文本,並猜測前面的表格列。

+0

如何使用'pd.read_clipboard()'並手動複製它?桌子會工作嗎?我只是不喜歡手動輸入pdf中的所有內容 – ccsv

+0

@ccsv:誰填寫剪貼板?這個程序有猜測表的結構,與 – Daniel

+0

相同的問題!我希望能以pdf格式快速閱讀表格。 – ccsv

1

如果是一次性的,可以將PDF表中的數據複製到文本文件中,格式化(使用搜索替換,Notepad ++宏,腳本),將其保存爲CSV文件並將其加載到Pandas中。

如果您需要以可伸縮的方式執行此操作,您可以嘗試此產品:http://tabula.technology/。我還沒有使用它,所以我不知道它的工作效果如何,但是如果你需要它,你可以探索它。

0

從PDF中複製表格數據並粘貼到Excel文件中(通常將其粘貼爲單列而非多列)。然後使用FlashFill(在Excel 2016中提供,不確定早期的Excel版本)將數據分成最初在PDF中查看的列。該過程快速而簡單。然後使用Pandas來調整Excel數據。