2016-11-09 130 views
0

我讀過可能的Stackoverflow es-hadoop/es-spark項目使用批量索引。如果它是默認的批量大小是根據BulkProcessor(5Mb)。有沒有任何配置可以改變這一點。Elasticsearch hadoop配置批量批量大小

我在我的代碼中使用JavaEsSparkSQL.saveToEs(dataset,index),我想知道可用的配置是否可用來調整性能。這也與數據集的分區有關。它們的配置頁

es.batch.size.bytes (default 1mb) 

大小(字節),用於批量上

回答

0

實測值設置寫入使用Elasticsearch散裝API。請注意,批量大小是按每個任務實例分配的。總是乘以Hadoop作業中的任務數量,以獲得運行時的總體大小,以達到Elasticsearch。

es.batch.size.entries (default 1000) 

使用Elasticsearch批量API進行批量寫入的大小(在條目中) - (0禁用它)。伴隨着es.batch.size.bytes,一旦匹配,就執行批量更新。與大小類似,此設置是針對每個任務實例的;它在運行時會乘以運行的Hadoop任務的總數。