2012-07-14 111 views
0

1)對於Ajax-Solr設置,我提到https://github.com/evolvingweb/ajax-solr/wiki/reuters-tutorialSolr + Nutch + AjaxSolr查詢

我想知道,雖然ajax-solr正在運行,但它只在路透社的數據下進行搜索。如果我想使用nutch抓取網頁並將其與solr集成,那麼我必須用nutch的schema.xml文件替換solr的schema.xml文件,該文件不會根據ajax-solr配置。通過替換schema.xml文件,ajax-solr不會工作(糾正我,如果我錯了)!

我現在如何將Solr與Nutch一起與Ajax-Solr集成,以便ajax-Solr可以在網上搜索其他數據?

2)我想問一下,除了Ajax-Solr之外,是否還有任何Solr搜索的前端API,這將有助於高效搜索抓取的網頁?

回答

1
  1. 看看Solr的多內核,最好不要嘗試用不同性質的混合文檔在一個集合
  2. 有很多的API SOLR,如SOLRJ的Java(http://wiki.apache.org/solr/Solrj),SolPHP爲PHP(http://wiki.apache.org/solr/SolPHP ) 等等。
+0

感謝您的回覆。但是,使用Solr和多核可以解決我指定的問題嗎? – PythonEnthusiast 2012-07-15 16:48:44

+0

是的。但是,您將對不同內核執行2個請求,然後彙總不同結構的文檔。另一種方式是,如果結構沒有太大差別,可以將它們集成到一個公共schema.xml中(也可以在Nutch的自定義索引插件中添加一些字段,可能是) – 2012-07-16 20:52:38

+0

哦!感謝您的信息...這真的很有幫助!會給它一個鏡頭....謝謝.. – PythonEnthusiast 2012-07-17 01:36:07