日光浴室不能提取PDF內容

今天我第一次使用提取物。 Solarium從PDF文檔中提取元數據並插入到索引中，但不保存內容。我使用的示例2.7提取查詢（來自Solarium示例）並將其替換爲index.html與myfile.pdf但無效。有人知道會發生什麼？謝謝日光浴室不能提取PDF內容

來源

2013-04-29 Jazzer Glez

我有同樣的問題。我不知道爲什麼，但是，改變

$ query-> addFieldMapping（'content'，'text'）;

到

$查詢 - > addFieldMapping（ 'fmap.content'， '文本'）;

確實爲我工作。

也許問題是在/更新solrconfig.xml中定義/提取RequestHandler

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" > 
<lst name="defaults"> 
<str name="fmap.content">text</str> 
<str name="lowernames">true</str> 
<str name="uprefix">attr_</str> 
<str name="captureAttr">true</str> 
</lst> 
</requestHandler>

我也已經驗證了，從HTML文件中提取數據，預期不應用我已經解釋了修改，不工作之前。如果您再次使用'fmap.content'運行抽取測試，您將會在'content'字段中看到HTML頁面的內容。

我做這些測試使用Solr 4.4.0和3.1.2日光浴

希望它有助於

來源

2013-09-28 16:38:00

這不是一個答案，這是一條評論。 – 2015-01-22 10:39:59

日光浴室不能提取PDF內容

回答

相關問題