0
我正在嘗試創建一個可以讀取pdf並從中提取某些信息(保存在數據庫中)的爬蟲。爬行器閱讀pdf
但是,我不確定使用哪種方法/工具。
我最初的想法是使用PhantomJs,但在閱讀很多內容後,似乎並沒有它的功能。如果我想要使用Phantomjs,我將不得不下載PDF,將其轉換爲HTML頁面,然後使用Phantom抓取它,這似乎是一項應該能夠更快完成的枯燥任務。
所以我的問題是,我如何從一個在線來源閱讀pdf並收集這些信息?