我正在尋找將索引類型豐富的文檔(Pdf,Doc,rtf,txt)編入Solr。我發現Tika是一種解決方案。我在網上做了一個咆哮,但沒有找到任何Docs /鏈接來使它與ExtractingRequestHandler一起工作。使用Solr配置Tika
任何人都可以請提供一步一步的方式來配置Tika與ExtractingRequestHandler。
感謝提前:)
我正在尋找將索引類型豐富的文檔(Pdf,Doc,rtf,txt)編入Solr。我發現Tika是一種解決方案。我在網上做了一個咆哮,但沒有找到任何Docs /鏈接來使它與ExtractingRequestHandler一起工作。使用Solr配置Tika
任何人都可以請提供一步一步的方式來配置Tika與ExtractingRequestHandler。
感謝提前:)
檢查ExtractingRequestHandler與提卡Solr的集成。
Solr提供了tika.config內置的,你不需要定義它,除非重寫配置。
您可以用默認配置走在solrconfig.xml中
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
可以使用命令來索引文件與其他元數據到Solr定義。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected]"
默認情況下,文件的內容被複制到內容字段並複製到文本中,您可以覆蓋設置。
@jayedra一個問題!除了pdf類型以外的索引,它會引發Java.lang.noClassDefFoundError。任何線索? – user2475624
哪個班? – Jayendra
謝謝Jayendra這是一個URL問題,所以碼頭無論如何拋出異常解決。但現在我看不到我的文檔與solr查詢*。*什麼可能錯誤的任何線索? – user2475624
在您的資源搜索中,您是否嘗試過[ExtractingRequestHandler文檔](http://wiki.apache.org/solr/ExtractingRequestHandler)? – femtoRgon
我目前使用Solr-Php-Client Library來索引內容。現在索引文件,我發現tika作爲解決方案。但沒有找到如何使用solr進行配置?請你簡單解釋一下。或任何有用的鏈接/文檔? – user2475624
引用上面鏈接的文檔:「Solr的ExtractingRequestHandler使用Tika來允許用戶將二進制文件上傳到Solr,並讓Solr從中提取文本,然後對其進行索引。」這不是一個特例,它只是'ExtractingRequestHandler'的工作方式。該文檔應該可以幫助您開始。如果您隨時遇到麻煩,請隨時提出一個新問題以幫助解決問題,但您應該先嚐試一下。 – femtoRgon