2014-06-10 40 views
0

this guide我做了如下步驟:澄清使用Solr的

  1. 複製我需要張貼到exampledocs(其中post.jar存在)的文件。
  2. 使用java -Dauto -jar post.jar *.doc *.xls *.pdf命令將文檔發佈到solr
  3. 然後使用這個localhost:8983/solr/select?q = Gradient我能夠查詢文檔。

我的問題是,我發佈的文檔是否已編入索引? 我很懷疑,因爲我從來沒有爲它定義任何模式。 當我上傳大量文件並查詢它時,它會很快嗎?

回答

0

他們正在索引。它將在schema.xml文件中使用預定義的模式。

我發現使用Solr的搜索時間非常快,有數以萬計的文檔。

編輯
下面是設置了引導我指的是:

Solr的設置:http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html
Nutch的抓取網絡(先做):http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.html Nucth爬行文件系統(做二) :http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

+0

好吧,我在一些門戶網站閱讀,我發佈數據使用post.jar的方式是不可取的。你可以建議我採取相同的措施嗎?或者這本身就很好? @Allan Macmillan – bala1990

+0

我建立了一個Apache Nutch爬行器來抓取我的文件系統,Nutch與Solr集成在一起,它可以將文件傳輸到Solr以便Solr索引和存儲。然後使用網絡服務創建搜索引擎。我寫了一篇關於如何設置它的博客,我將在上面發佈 –