2011-09-14 57 views
1

經過大量搜索,似乎沒有任何關於如何在Solr中使用Nutch 1.3的直接解釋。簡單的Nutch 1.3/Solr索引解釋

我有一個Solr索引與其中的其他內容,我將用於搜索網站。

我想將Nutch結果添加到索引中,這會將外部網站添加到網站的搜索中。

所有這一切都工作得很好。

問題是,你如何清新指數?您是否必須先刪除Solr中的所有Nutch結果?或者Nutch是否照顧這個? Nutch是否刪除Solr索引中不再有效的結果?

沒有任何文檔或解釋他們正在做的shell腳本沒有幫助回答這些問題。

回答

0

nutch模式將id(= url)定義爲唯一鍵。如果您重新抓取url,那麼當nutch將數據發佈到solr時,將會在solr索引中替換文檔。

+0

它如何修剪不再在其爬網的網站上的文檔? – Karl

+0

默認情況下不會發生這種情況。爲了實現這一目標,您需要從索引中刪除網站的所有結果,然後運行刷新抓取。可以在將新數據提交給solr索引之前完成刪除操作,以便在更新抓取完成之前獲得結果。 – Umar

+0

這是nutch可以做的嗎?我沒有看到有關刪除索引外的任何內容。 – Karl

0

那麼你需要在Nutch中實現增量爬行......這取決於你的應用程序。有些人每天需要重新抓取,其他人每3個月需要重新抓取一次。無論如何,最高可達90天。

總的想法是刪除比重新抓取的最大時間早的抓取段,因爲當時它們將是多餘的。併產生一個新的solrindex用於Solr。

恐怕你必須自己做腳本。有一天,我可能會把一些我爲此做的腳本放在維基上,但他們還沒有準備好發佈。