我們遇到了Solr批量索引的一些性能問題:我們有一個由4名工作人員組成的集羣,每個工作人員都配有32個內核和256GB的RAM。 YARN被配置爲使用100個vCore和785.05GB內存。 HDFS存儲由通過10Gb接口連接的EMC Isilon系統管理。我們的集羣運行CDH 5.8.0,具有Solr 4.10.3的功能,並且它已被Kerberized化。Solr索引性能
利用目前的設置,說到壓縮數據,我們可以使用MapReduce作業索引每天大約25GB和每月500GB。其中一些作業每天都在運行,並且需要將近12小時才能索引15 GB的壓縮數據。特別是,MorphlineMapper作業大約持續5個小時,TreeMergeMapper持續大約6個小時。
這些表演是否正常?你能建議我們做一些調整來改善我們的索引表現嗎?
謝謝
斯特凡諾
基準和剖析一切,並找出你的瓶頸在哪裏。修復這些。重複。 –
這個問題實在太廣泛了,我沒有答案,我同意@AndrewHenle。開始基準測試並逐個分析您的所有架構。或者請編輯該問題,將其限制爲具有足夠詳細信息的特定問題以確定適當的答案。 – freedev