2012-03-26 48 views
0

我用nutch 1.4抓取網站,並索引數據到solr 3.5。這是成功的。我用Luke檢查索引數據,發現有1678個文件被提取。但是當我在solr界面中輸入查詢字符串(只是幾個關鍵字)進行搜索時,所有1678個文檔都被檢索到。這很奇怪,因爲大多數檢索到的網頁根本不包含這些關鍵詞。搜索所有正在檢索的文檔

對此問題的任何想法?

謝謝。

雷霆

+1

它可以是任何東西。你可以添加一些細節?例如你的'schema.xml'和你正在嘗試的查詢。謝謝 – javanna 2012-03-26 07:30:57

+0

我爬過的是醫學圖書館網站。它主要包含醫療術語和術語。例如,我輸入查詢字符串'Clinical Allegy&Clinical Immunology',solr返回所有1678個文檔。謝謝! – thunder 2012-03-26 18:26:59

+0

順便說一下,我使用'schema.xml'直接從Nutch 1.4中複製,它位於nutch_home/runtime/local/conf下。謝謝! – thunder 2012-03-26 18:39:47

回答

0

嗯,人,當他們使用Solr搜索通常有「丟失文件」式的問題。你有相反的問題:)

你應該能夠看到爲什麼這種情況發生後,你立即與盧克打開你的索引。 Nutch模式的默認搜索字段是Content,所以當您只將搜索詞輸入到Solr即將要搜索的字段時。使用Luke檢查它的內容。

你是,當然,知道這些寶貴的資源:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html