當從PDF中讀取文本時,它在Python3中如何識別?我想知道Python3如何「看到」它,以便我可以告訴它需要查找,保存什麼信息等。如何從Python中的「可見」PDF中提取文本?
我的最終目標是閱讀PDF,從讀取的信息中查找某些文本,然後創建一個新的僅包含符合標準的信息行。作爲一個粗略的例子(僞代碼):
-Read the PDF,if column 4 has a'x'in,copy the ROW to a separate file(skip,if it does not contain'x'),繼續直到PDF結束。
-Read NEW doc,如果第1列有'n',請保留行,否則刪除它。
我知道這不是最理想的做法,我計劃在稍後修復該部分。
你自己做了什麼研究嗎? http://www.unixuser.org/~euske/python/pdfminer/index.html –
您應該首先閱讀您正在使用的PDF工具的源代碼(如果可用)。看看[Stack Overflow用戶需要多少研究工作?](http://meta.stackoverflow.com/q/261592/7432) –