Spark - Scala：解析並提取同時具有文本和圖像的文檔 - .doc，.docx文件

我有幾個文件（doc，docx文件），它們同時包含Image和Text。我想解析這些文件並提取內容，有或沒有圖像細節。Spark - Scala：解析並提取同時具有文本和圖像的文檔 - .doc，.docx文件

目前我使用的是拒絕解析這些文件的Apache Tika。它完美適用於PDF，以及純文本.doc，.docx文件。但具有圖像文件拋出錯誤：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pkg.TikaArchiveStreamFactory.detect(TikaArchiveStreamFactory.java:472) at org.apache.tika.parser.pkg.ZipContainerDetector.detectArchiveFormat(ZipContainerDetector.java:112)

有什麼辦法來提取這些文件的內容。？

來源

2017-07-08 Sija Balakrishnan

將我的所有文件轉換爲PDF文檔。然後使用Tika解析器 - TesseractOCR對它們進行處理。

來源

2017-07-14 11:09:28

Spark - Scala：解析並提取同時具有文本和圖像的文檔 - .doc，.docx文件

回答

相關問題