2014-01-15 150 views
1

這主要是針對彈性搜索的設計模式問題。彈性搜索索引因特網

如果我想用Elastic Search爲互聯網編制索引,那麼組織這樣的任務最有效的方法是什麼?

@kimchy關於不同模式的討論和Rafal Kuc討論縮放大規模集羣,但我沒有得到如何組織一個互聯網索引後,看着這些。

我認爲你可以通過爲每個域創建一個新的索引來組織這樣的工作。所以你可以大量的索引像Stackoverflow.com碎片,但也許只有1個碎片索引像momandpopsite.com

這是否看起來有效的你ES社區?我不確定,因爲我們可以很快進入數百萬個索引,更不用說他們的個別碎片了。現在我想知道這種類型的設計是否存在很多開銷,並且變得臃腫。 (也就是說,這種模式的結構是否會造成太多的開銷?)。

我知道這個問題必須是理論上的,因爲沒有指定資源。但是,如果你可以利用自己的想象力,並試圖堅持純粹的設計策略 - 你將如何索引萬維網?可以說有275萬個域名。使用彈性搜索索引互聯網的最有效的設計模式是什麼?

回答

1

每個域的索引(所以2.75億個索引)是不可行的。索引確實有開銷,我已經失去了參考,但我不認爲在單個「普通」服務器上需要超過100個索引。

爲了讓更多的網站進入單個索引,你會想引入路由和視圖,但我會想象一個單一的索引也會引入不需要的開銷。我猜測,但路由規則查找可能會變得非常大等等。所以你會想找到某種方式跨索引分裂的東西。在這麼高的數量下,你無法將它全部設計在紙上,所以我建議PoC的工作來確定你爲不同大小的索引獲得什麼樣的性能。然後,您會看到使用別名正確映射到基礎索引。

對於進一步閱讀: https://groups.google.com/forum/#!searchin/elasticsearch/index $ 20per $ 20user/elasticsearch/I-G5NlP1VeY/PK9vVP0myAgJ

https://groups.google.com/forum/#!msg/elasticsearch/9L5cWIAib94/K7zdHEW-4P0J

+0

很有意思@brent,謝謝。我今晚晚些時候會深入這些網站。 – Chris