2014-01-29 31 views
0

如果必須從頭開始構建分佈式倒排索引,您會使用什麼工具/庫/平臺? elasticseach(我需要部分TF與日期約束)只是部分做我所需要的,並考慮使用hbase構建倒排索引,但想知道是否有更多理智的選擇(我不會將所有內容都放入內存中,進入緩存)。在分佈式環境中構建倒排索引

回答

1

您的要求對我來說仍然很模糊,所以一些附加的細節將有助於提供更好的答案。

如果您需要支持分面和模糊詞匹配,Solr Cloud可能是一個不錯的選擇。 Solr Cloud只是Solr的分佈式配置。設置比彈性搜索更麻煩一些,但仍然是一個非常強大和流行的工具。

如果您還沒有使用HBase,我不確定我會推薦僅爲創建索引而引入它。

如果我更好地理解您的使用案例和當前環境,可以給您一個更好的答案。

+0

基本上我需要跟蹤某些標記(單元和n-gram)隨時間推移的頻率變化,並能夠將其納入相關性公式中。正如我的理解,你不能用Lucene(solr,elasticsearch)來做這件事。 – ilijaluve