2013-01-22 56 views
0

如何檢測文檔中的圖像說doc,xls,ppt或pdf?python檢測文檔中的圖像

我遇到了Apache Tika,我正在嘗試命令行選項。 http://tika.apache.org/1.2/gettingstarted.html

我使用Python2.7 ..

但不能肯定它會怎樣檢測圖像。

我是Django的新手,任何幫助表示讚賞。

感謝

+0

決定支持的文件格式的確定列表,然後逐個解決每個文件格式。作爲開始,微軟格式都是zip文件。因此,您可以檢查存檔中是否存在非空圖像目錄。 – kalhartt

+0

@kalhartt:是否有任何其他方式然後apache-tika檢測圖像是否存在於pdf中(純python) – user1839132

+0

[Python-tika](http://redmine.djity.net/projects/pythontika/wiki)可能對你有用,雖然文檔看起來並不完整。如果沒有Tika [PDFMiner](http://www.unixuser.org/~euske/python/pdfminer/index.html)可以完成這項工作。 – kalhartt

回答

0

這個線程是舊的,我恢復它,因爲有各種各樣的解決方案,現在這個問題。 tika的開發者之一Chris Mathamm已經爲tika做了一個python集成,它使用JCC庫的C++綁定來訪問jvm並運行tika。你可以找到那個here

還有一個Apache Tika integration for Plone using portal transforms.它使用tika-jaxrs服務器來解析文檔。