2013-04-21 43 views
0

我想用Tika來提取一些文件合成的文本,如.doc,.ppt等等。
目前我依賴於tika-app-1.2.jar,但我認爲依靠這個jar不是一個好主意,因爲這個jar是可運行的。此外,在解析.ppt文件它給了我此運行時異常:我需要依賴哪一罐蒂卡?

org.apache.tika.exception.TikaException: Unexpected RuntimeException from [email protected] 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244) 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242) 
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120) 
    ... 

我深深一派這個問題,並發現這個問題是由apache-poi並嵌入tika-app引起的。

我的問題是,我必須依賴哪些罐子?

  • 蒂卡
  • 蒂卡核心
  • 蒂卡束
  • 蒂卡父母
  • 蒂卡-應用

回答

3

http://tika.apache.org/1.3/gettingstarted.html

我想你想的蒂卡的解析器依賴。來自Tika網站。

如果你想使用提卡解析文件(而不是簡單地 檢測文件類型等),你要依靠蒂卡的解析器 代替:

<dependency> 
    <groupId>org.apache.tika</groupId> 
    <artifactId>tika-parsers</artifactId> 
    <version>1.3</version> 
</dependency> 

作爲一個方面說明,我絕不會試圖直接從Maven中心獲取依賴項,而無需先諮詢該項目的文檔。正如你在Tika中看到的那樣打破依賴關係,IMO是新的標準方法,而不是提供一個單一的jar包,這樣包括這些項目的人可以更好地控制穀物,當他們包含依賴項。

+0

謝謝,你的回答非常正確。 – user2041057 2013-04-27 13:32:39

+0

@ user2041057很高興能幫到你! – Jazzepi 2013-04-27 15:34:43