2010-05-10 160 views
6

我在Ubuntu 10.04上運行Solr 1.4(通過apt-get solr-tomcat安裝),它似乎工作正常。我有一些困難找到任何連貫的信息,但如何索引文件。 Im新的SOLR讓我忍受! 我有一個文件夾(/ mnt /文件夾),這是一個裝載的Windows共享,其中包含Word和PDF文件,我想索引,最簡單的方法來索取SOLR索引整個文件夾?如何索引SOLR中的文檔?

SOLR的文檔非常差,它不可能找到任何正確的教程來完成任務,所以任何幫助都非常感謝!

小號

回答

7

看看的Solr wiki,這是一個非常完整的文檔。

尤其請參閱ExtractingRequestHandler,它允許您索引二進制文件,如Word和PDF文檔。 Here's an introduction到主題。

如果這個wiki對你來說還不夠,還有一個great book about Solr

+1

Lucid鏈接不起作用。但是,視頻在YouTube上找到。 http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec 2014-03-07 07:40:05

+0

僅鏈接到書籍作品 – orezvani 2014-08-20 10:15:06

1

我找到了一個核心文檔同樣的挑戰,但我遇到了這個非常有用的參考指南從LucidImagination,這有助於澄清關於SOLR很多事情:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

遺憾的是,該鏈接不再有效。 – 2013-06-13 09:20:47

+0

我認爲這將取代上述:http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza 2013-08-09 10:47:32

0

處理豐富的文檔與Solr:http://wiki.apache.org/solr/UpdateRichDocuments

+2

哦,剛剛認識到,這種方法已被ExtractingRequestHandler取代,就像Mauricio所建議的。 (引用來自solr wiki:_This頁面涵蓋了由Eric Pugh和Chris Harris創建的RichDocumentHandler Solr的Tika集成,將取代RichDocumentHandler,在ExtractingRequestHandler中進行了描述,這裏爲那些目前使用RichDocumentHandler_的用戶保留了此頁面) – High6 2011-08-26 08:21:35