2017-02-20 46 views
1

我試圖優化ElasticSearch中的索引速度,因爲我們每小時都在不斷重新索引索引,所以我們能夠更快地重新索引數據,我們可以實現的滯後越少。可能在ElasticSearch中索引1M文檔/秒?

我碰到這篇文章,談到達到100K的重新索引吞吐量:https://thoughts.t37.net/how-we-reindexed-36-billions-documents-in-5-days-within-the-same-elasticsearch-cluster-cd9c054d1db8#.4w3kl9ebf,以及這個StackOverflow問題達到更高:ElasticSearch - high indexing throughput

我的問題是,是否有可能實現每秒100萬個文件的持續索引吞吐量,如果是這樣,怎麼樣?

回答

1

這取決於幾個因素,但爲什麼它不可能?這裏有幾個關鍵因素,這將加快索引過程:文檔的

  • 尺寸(小快)
  • 數量的內核和內存大小(更多的是更快)
  • 數的機(更是更快)
  • 數量的副本(較小的是更快)

作爲一個實例,具有小文件和一個單一的八芯機,我能夠index at about 70k-120k docs/s。投入更多的核心或機器,你可以接近1M文檔/秒。


更新:另一個測試運行與Elasticsearch 6.1.0,在單個32核E5,用64G JVM堆。在這裏,esbulk可以使用大小爲20-40字節的10M小文件索引大約330000個文檔/秒。


聲明:我寫esbulk

相關問題