2013-03-06 25 views
0


您好所有索引,
Solr的二進制文件的內容從datase


我在想,如果有人可以幫助我想出解決辦法。我是新的solr,我試圖索引二進制文件,如.pdf,.docx ...問題是,我的solr配置索引文件,但是當我運行查詢時,它不顯示駐留在文件中的內容。


默認情況下,我使用的是schema.xml。

對於數據-config.xml中我使用這種配置:

<dataConfig> 
<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" 
        url="jdbc:mysql://localhost:3306/db" 
        user="Iam" batchSize="-1"/> 
<document> 
    <entity name="data" datasource="mysql" recursive="true" 
      query="select id, post, guid from posts'" 
      > 


     <field column="guid" name="content"/> 
    </entity> 
</document> 
</dataConfig> 


在solrconfig.xml中:

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> 
    <lst name="defaults"> 
     <str name="config">data-config.xml</str> 
    </lst> 
    </requestHandler> 

<requestHandler name="/update/extract" 
        startup="lazy" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="lowernames">true</str> 
     <str name="uprefix">ignored_</str> 
</lst> 
    </requestHandler> 


我希望有人可以給我一些提示。先謝謝了。

回答

0

如果您正在使用DIH,則可以使用Tika集成爲可在文件系統或數據庫中作爲blob字段保存的豐富內容文檔建立索引。

提卡和DIH的整合已經通過TikaEntityProcessor

集成提供的Solr - SOLR-1358
斑點處理 - SOLR-1737

+0

嗨Jayendra,非常感謝你的回覆。但是,我仍然堅持從存儲在我的數據庫中的二進制文件中提取內容。我遵循你給我的鏈接中的指示,但它對我不起作用。還有什麼我可能會失蹤? – pepe 2013-03-07 17:31:39