2013-07-14 31 views
1

如何近似計算使用solr創建的索引大小(內存使用情況)?我知道進入計算的變量很多,但僅僅涉及到10GB還是10MB。我該如何近似計算Solr索引大小

比如我有1000個文檔,字段僅ID文本,想決定字段類型將是字符串或text_general。如果我添加其他字段,大小如何變化。

也許,如果anybode可以如此感謝,並在這裏寫一些關於真實索引的統計信息。

+0

索引大小與內存使用率不同。索引大小是Solr索引佔用多少磁盤空間,而內存使用率取決於許多不同因素,這取決於您的查詢和索引操作。 – arun

+0

確定「text」是字符串還是text_general字段取決於您的查詢要求。 'string'將比任何'text'類型需要更少的空間,因爲它在沒有任何分析的情況下逐字地存儲值。 – arun

回答

1

Solr的索引的大小將取決於許多字段的數量定義

  • 這些領域中,所述的結構的因素

    1. 其中索引或存儲。存儲字段通常會導致索引增長
    2. 字段中定義的類型和字段類型。例如字符串字段作爲一個整體存儲。但是,文本字段會根據字段上執行的分析類型生成多個令牌。例如邊緣克,ngram,同義詞等會導致生成多個令牌,並且如果存儲的話將被保持在索引中。
    3. 您正在建立索引的字段的內容。如果生成的令牌更常見而且不唯一,那麼當Lucene將令牌字典單獨存儲並且只有指向來自文檔的令牌的指針時,您將具有小的索引大小。
    4. 維護位置可以非常昂貴指數的大小,如果不使用位置

    以及更多這樣避免它。