2010-08-10 26 views
0

我將在solr上構建一個搜索引擎,並將nutch作爲搜尋器。我必須索引大約13毫升的文件。 我做這個工作的3個服務器:針對solr搜索引擎的3臺服務器的體系結構

  1. 4核Xeon 3GHz的,20Gb的內存,1.5TB SATA
  2. 2 * 4核Xeon 3GHz的,16GB內存,500GB IDE
  3. 2 * 4核Xeon 3GHz的,16GB內存,500GB IDE

一個I可以作爲主設備使用的爬行和索引,其他兩兩作爲從屬搜索,或我可以使用一個用於搜索服務器,以及另外兩個用於索引具有兩個碎片。 你可以推薦哪些建築?我應該使用分片,多少分片,以及我應該使用哪些服務器來做什麼?

+0

不可能沒有很多答案沒有更多的信息。例如 - 索引。多少個文件CHANGE?否則,在初始加載之後,如果很少的文檔發生變化,索引器就沒有太多的工作要做。 – TomTom 2010-08-10 10:12:25

+0

所有13mln文檔將在一個月內重新索引1-2次,我在模式中每月都會更改自定義字段 – user183038 2010-08-10 10:20:28

回答

1

我想兩個都試試。閱讀HathiTrust做了什麼。我會從一個主人和兩個奴隸開始,這是最簡單的方法。如果你只有13毫升的文件,我猜測負載將在索引/抓取方面.....但是13毫升只有每分鐘約300頁。我認爲你nutch履帶將是瓶頸....

0

我傾向於使用兩臺服務器進行搜索和一個索引。

作爲一般規則,您希望儘可能快地進行搜索,但要犧牲索引性能。另外,兩臺搜索服務器爲您提供了一些自然冗餘。

我會使用第三臺服務器進行搜索,當它實際上沒有進行索引時。 (1300萬個文檔不是一個巨大的索引,索引它不應該花很長時間,相比之下,你經常重新索引它)