我需要依賴哪一罐蒂卡？

我想用Tika來提取一些文件合成的文本，如.doc,.ppt等等。
目前我依賴於tika-app-1.2.jar，但我認爲依靠這個jar不是一個好主意，因爲這個jar是可運行的。此外，在解析.ppt文件它給了我此運行時異常：我需要依賴哪一罐蒂卡？

org.apache.tika.exception.TikaException: Unexpected RuntimeException from [email protected] 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244) 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242) 
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120) 
    ...

我深深一派這個問題，並發現這個問題是由apache-poi並嵌入tika-app引起的。

我的問題是，我必須依賴哪些罐子？

蒂卡
蒂卡核心
蒂卡束
蒂卡父母
蒂卡-應用

來源

2013-04-21 user2041057

http://tika.apache.org/1.3/gettingstarted.html

我想你想的蒂卡的解析器依賴。來自Tika網站。

如果你想使用提卡解析文件（而不是簡單地檢測文件類型等），你要依靠蒂卡的解析器代替：

<dependency> 
    <groupId>org.apache.tika</groupId> 
    <artifactId>tika-parsers</artifactId> 
    <version>1.3</version> 
</dependency>

作爲一個方面說明，我絕不會試圖直接從Maven中心獲取依賴項，而無需先諮詢該項目的文檔。正如你在Tika中看到的那樣打破依賴關係，IMO是新的標準方法，而不是提供一個單一的jar包，這樣包括這些項目的人可以更好地控制穀物，當他們包含依賴項。

來源

2013-04-21 15:17:36 Jazzepi

謝謝，你的回答非常正確。 – user2041057 2013-04-27 13:32:39

@ user2041057很高興能幫到你！ – Jazzepi 2013-04-27 15:34:43

我需要依賴哪一罐蒂卡？

回答

相關問題