我正在嘗試獲取.doc .docx .odt和.pdf類型文件的字數。 這對於.txt文件來說非常簡單,但我怎麼才能對所提到的類型進行單詞計數呢?如何在python中獲得word文檔的字數?
我在Ubuntu上使用python django,並嘗試在用戶通過系統上載文件時對文檔字進行統計。
我正在嘗試獲取.doc .docx .odt和.pdf類型文件的字數。 這對於.txt文件來說非常簡單,但我怎麼才能對所提到的類型進行單詞計數呢?如何在python中獲得word文檔的字數?
我在Ubuntu上使用python django,並嘗試在用戶通過系統上載文件時對文檔字進行統計。
首先,您需要閱讀您的.doc .docx.odt和.pdf。
二,count字樣(<2.7 version)。
鑑於您可以對.txt文件進行此操作,我會假設您知道如何計算單詞,並且您只需要知道如何閱讀各種文件類型。在這些庫看看:
PDF:pypdf
DOC/DOCX:this question,python-docx
ODT:examples here
我用的python-DOCX爲docx文件。我發現pdfminer比將pdf轉換爲文本的pypdf更好。我猜我必須使用antiword來處理.doc文件。仍然要結帳odt。感謝您的答覆。 – darren