我正嘗試在上下文廣告的1億次展示中使用XGBoost構建CTR預測模型,爲了實現上述目標,我想嘗試使用Hadoop上的XGboost,因爲我擁有HDFS中的所有展示數據。如何在hadoop集羣上運行xgboost進行分佈式模型培訓?
有人可以引用一個相同的Python工作教程?
我正嘗試在上下文廣告的1億次展示中使用XGBoost構建CTR預測模型,爲了實現上述目標,我想嘗試使用Hadoop上的XGboost,因爲我擁有HDFS中的所有展示數據。如何在hadoop集羣上運行xgboost進行分佈式模型培訓?
有人可以引用一個相同的Python工作教程?
有很多方法可以做到這一點:
如果萬一你有一些較低級別的邏輯分組說CTR對一些項目部門,你想對部門,那麼你可以去地圖本地化模型減少設置的類型。它將確保屬於單個部門的所有數據將最終放入單個YARN容器中,並且可以針對該數據構建模型。 NLineInputFormat是一個聰明的技巧,使這個只有地圖的過程比基於地圖減少的過程,它會給你顯着的速度提升。
可以使用XGBoost星火版本更指http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果萬一你在決定你的基礎架構以及工藝然後給AWS還嘗試按此處的說明做分佈式機器學習。它不是Hadoop,但確實是僞分佈式機器學習:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html