2016-01-28 40 views
0

我有一個500萬個短語的列表(每個短語可能是2-10個單詞)。 我的輸入是一個文本(100至5000字)。 我想在文本中找到短語(從5百萬列表)。 Elasticsearch是否適合這種情況?在文檔中搜索數百萬個短語

謝謝

+0

您能詳細說明一下您是否對包含輸入文本中出現的某些詞語的詞組感興趣(不管順序如何),還是必須以(大致)相同的順序出現?它對哪種查詢類型最適合有重大影響。 – NikoNyrh

+0

請參閱我對@ E-Dahari回覆的評論。謝謝 –

+0

我已經回答了類似的問題[here](http://stackoverflow.com/questions/35075518/elasticsearch-how-to-only-return-results-for-text-search-query-if-the-query-con/35077004#35077004),基本上就指數500萬個短語(詞組的陣列),給輸入文字和ES會給你一個鏈接所有的詞組後面(使用帶狀皰疹,更多細節) – ChintanShah25

回答

0

基本上是的!
但是,這取決於:
Elasticsearch支持水平擴展,這意味着它可以索引甚至比你有什麼,只要它包含其集羣足夠的存儲空間,內存和節點(物理機)更多的數據。

如果您指的是搜索請求性能,那麼您所描述的數據量應該表現良好。同樣,只要您的羣集中有足夠的節點來分配索引數據和搜索。

here 你可以找到更多關於這個問題的信息。

希望它有幫助。

+0

我認爲這個問題不是關於擴展,而是更多關於如何表達這樣的查詢以及單個節點集羣的預期性能。 – NikoNyrh

+0

感謝球員的迴應。問題是關於性能和可用性。如果我理解正確,當搜索/查詢輸入是2個單詞時,引擎將執行2個查詢,每個查詢單個單詞,並將結果合併爲單個響應。由於我的輸入可能包含1000甚至5000個單詞,因此我想知道它是否是Elasticsearch的有效方案以及該方案的預期性能。 謝謝。 –

相關問題