2013-04-29 29 views
0

今天我第一次使用提取物。 Solarium從PDF文檔中提取元數據並插入到索引中,但不保存內容。我使用的示例2.7提取查詢(來自Solarium示例)並將其替換爲index.htmlmyfile.pdf但無效。有人知道會發生什麼?謝謝日光浴室不能提取PDF內容

回答

0

我有同樣的問題。我不知道爲什麼,但是,改變

$ query-> addFieldMapping('content','text');

$查詢 - > addFieldMapping( 'fmap.content', '文本');

確實爲我工作。

也許問題是在/更新solrconfig.xml中定義/提取RequestHandler

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" > 
<lst name="defaults"> 
<str name="fmap.content">text</str> 
<str name="lowernames">true</str> 
<str name="uprefix">attr_</str> 
<str name="captureAttr">true</str> 
</lst> 
</requestHandler> 

我也已經驗證了,從HTML文件中提取數據,預期不應用我已經解釋了修改,不工作之前。如果您再次使用'fmap.content'運行抽取測試,您將會在'content'字段中看到HTML頁面的內容。

我做這些測試使用Solr 4.4.0和3.1.2日光浴

希望它有助於

+0

這不是一個答案,這是一條評論。 – 2015-01-22 10:39:59