2016-05-04 30 views
0

我正在使用Solr爲期刊文章編制索引。使用開箱即用的配置,它索引了文檔的文本,但我正在尋找使用Grobid來取消作者,標題,從屬關係等等。我得到了一些好處,並將其作爲服務運行。將grobid與tika和solr集成

我加

<str name="tika.config">/path/to/tika-config.xml</str>

到requestHandler爲/更新/提取solrconfig.xml中

的蒂卡,配置是這樣的:

<?xml version="1.0" encoding="UTF-8" standalone="no"?> 
<properties> 
    <parsers> 
    <parser class="org.apache.tika.parser.journal.JournalParser"> 
     <mime>application/pdf</mime> 
    </parser> 
    </parsers> 
</properties> 

我當我嘗試時會遇到ClassNotFound異常導入一個文檔,但不知道在哪裏設置類路徑來修復它。

回答

0

正如Solr用戶列表中提到的,最新版本的Solr(6.0.0)使用的版本Tika(1.7)在添加grobid(Tika 1.11中出現)permalink之前。要按照升級到Tika 1.13,請參閱SOLR-8981