2016-09-29 75 views

回答

0

有很多方法可以做到這一點:

  1. 如果萬一你有一些較低級別的邏輯分組說CTR對一些項目部門,你想對部門,那麼你可以去地圖本地化模型減少設置的類型。它將確保屬於單個部門的所有數據將最終放入單個YARN容器中,並且可以針對該數據構建模型。 NLineInputFormat是一個聰明的技巧,使這個只有地圖的過程比基於地圖減少的過程,它會給你顯着的速度提升。

  2. 可以使用XGBoost星火版本更指http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html

  3. 如果萬一你在決定你的基礎架構以及工藝然後給AWS還嘗試按此處的說明做分佈式機器學習。它不是Hadoop,但確實是僞分佈式機器學習:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

相關問題