2014-03-25 69 views
0

有人可以建議如何獲取圖像文件(例如.jpg,.png,.gif等)的元數據並將這些數據索引到Apache Solr?使用TikaEntityProcessor獲取圖像文件元數據和索引到索引

目前,我正在使用Apache Solr 4.2。在DataImport配置文件中(對於我來說,我將它命名爲「db-import-config.xml」),我嘗試在ImageMetadataExtractor中使用TikaEntityProcessor。

<entity name="tika-test" 
     dataSource="binary"  // using BinURLDataSource 
     processor="TikaEntityProcessor" 
     onError="skip" 
     rootEntity="false" 
     url="${dbmw_image.url}" 
     format="none" 
     parser="org.apache.tika.parser.image.ImageMetadataExtractor"> 
     <field column="contributor" name="authors" meta="true"/> 
     <field column="creator" name="authors" meta="true"/> 
     <field column="data" name="creationDate" meta="true"/> 
     <field column="modified" name="lastModifiedDate" meta="true"/> 
</entity> 

字段「列」都來自都柏林核心元數據列表。當我嘗試在Solr上進行數據導入時,沒有一個字段被拾取。我需要下列問題的答案:

  1. 什麼是可用的圖像文件的元數據字段名稱? (即我可以在上面的Tika實體的「字段」的「列」屬性中加入的值)
  2. 如何索引並獲取這些元數據值(通過Tika?)和索引到Solr? (例如,我需要哪個解析器?我應該如何設置tika實體屬性等等)

任何建議都將被讚賞。

謝謝,

回答