如何在hadoop集羣上運行xgboost進行分佈式模型培訓？

我正嘗試在上下文廣告的1億次展示中使用XGBoost構建CTR預測模型，爲了實現上述目標，我想嘗試使用Hadoop上的XGboost，因爲我擁有HDFS中的所有展示數據。如何在hadoop集羣上運行xgboost進行分佈式模型培訓？

有人可以引用一個相同的Python工作教程？

有很多方法可以做到這一點：

如果萬一你有一些較低級別的邏輯分組說CTR對一些項目部門，你想對部門，那麼你可以去地圖本地化模型減少設置的類型。它將確保屬於單個部門的所有數據將最終放入單個YARN容器中，並且可以針對該數據構建模型。 NLineInputFormat是一個聰明的技巧，使這個只有地圖的過程比基於地圖減少的過程，它會給你顯着的速度提升。
可以使用XGBoost星火版本更指http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果萬一你在決定你的基礎架構以及工藝然後給AWS還嘗試按此處的說明做分佈式機器學習。它不是Hadoop，但確實是僞分佈式機器學習：https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

2016-09-29 12:11:12 abhiieor

回答