2016-01-11 59 views
2

我是ElasticSearch的新手,我有180個字段和1200萬行的文件。我創建了一個索引並鍵入ElasticSearch和Java程序,但需要1.5小時。有沒有其他最好的方式來將數據加載到ElasticSearch並縮短時間。我嘗試過一個縮減地圖程序,但有時它會失敗並生成重複的條目,並且比我的順序程序花費更多的時間。將條目插入ElasticSearch的最佳方式是什麼?

有人可以給出很好的建議嗎?

+0

Crore和Lakh已被添加到我的英語詞典thx:D中,除此之外'10200000'是一個很大的數字,可能您需要有一個簇或其他東西 – nafas

+0

請不要使用位置特定的數字因爲我們大多數人都需要查看他們。 –

+1

您是否使用批量上傳並嘗試了不同的批量?你是否已經將ES參數調整到了磁盤上?你看到CPU,磁盤或網絡飽和嗎?總共有多少內存,ES堆有多少? – NikoNyrh

回答

0

使用ES-hadoop插件避免重複條目時,您可以禁用推測性執行。當使用map-reduce來索引數據時,嘗試微調批量api的批量大小。 欲瞭解更多信息,請參閱: - https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html並嘗試更改默認值以獲得最佳性能。也嘗試增加ES堆大小。您也可以使用ES的apache Tika或mapper附件插件從文件中提取信息。

希望它有幫助!

相關問題