2017-05-25 49 views
2

我想從python中的不同類型的文件中提取信息(.pdf .doc .docx)並將其轉換爲.txt,但在處理不同的文件時,我在不需要時獲取空格和換行符和許多其他問題。我已經嘗試過PyPDF2和PDF manager.Please建議我可以從文件中提取信息的東西。在python中讀取所有類型的文件

編輯

目前尋找的東西,它可以幫助我從.pdf文件中提取確切的文本。我已經嘗試過PyPDF,PDFMiner和PDF Manager,並且我在其中的一些pdf中遇到了問題。

回答

2

我個人認爲pdfminer是用於提取PDF文件Get it here

信息的最佳Python模塊,我認爲你可以參考this link 相應的文件格式。

+0

我用pdfminer它不適用於所有的PDF文件。此外,你可以建議一些.doc和.docx – skag

+0

我想你可以參考http://davidmburke.com/2014/02/04/python-convert-documents-doc-docx-odt-pdf-to-plain -text-without-libreoffice /用於相應的文件格式。乾杯! – gowtham

+0

獲得這個隨機空間以及 – skag