2017-04-05 261 views
5

我對波光粼粼的水有幾個疑問或疑問,爲什麼它需要。H20與火花水的火花差異

讓我們假設我有一個生成的二進制和pojo的h2o模型。

現在我想將模型部署到生產環境中,並且可以選擇使用pojo和二進制(波光粼粼的水)。

  1. 我應該使用哪一個?與二進制直接點燃Pojo或蘇打水。
  2. 當我們可以使用pojo和spark自己輕鬆部署模型時,波光粼粼的水的確切用途是什麼?
  3. 僅當您需要訓練大量數據的模型時才需要波光粼粼的水?或者它也可以用於模型的PROD部署。

實施例:https://github.com/h2oai/h2o-droplets/blob/master/h2o-pojo-on-spark-droplet/src/main/scala/examples/PojoExample.scala

用途火花運行POJO模型。

實施例:https://github.com/h2oai/h2o-droplets/blob/master/sparkling-water-droplet/src/main/scala/water/droplets/SparklingWaterDroplet.scala

火車/運行在蘇打水的模型。

波光粼粼的水H2O提供超過正常火花的優點是什麼?

回答

4
  1. 我應該使用哪一個?與二進制直接點燃Pojo或蘇打水。

    • 沒有「正確的」答案,這取決於你的用例。這聽起來像你想要的是Spark中的POJO/MOJO,所以你可以在沒有增加H2O集羣的依賴的情況下進行評分。
  2. 什麼是波光粼粼的水的確切用途,當我們可以使用pojo和spark自己輕鬆部署模型?

    • Sparkling Water的確切用途是在Spark上下文中提供一個H2O。這是培訓尤其有用:您可以利用星火的許多數據連接器,改寫(munging)功能等POJO/MOJO + Spark是足以得分
  3. 是當你要訓練模型只需要蘇打水大量的數據?或者它也可以用於模型的PROD部署。

    • 當您想要在充分發揮Spark生態系統的環境中利用H2O算法時,需要Sparkling Water。

如果把一個模型中的「生產」是指具有「永遠在線」的得分暴露爲REST端點或相似:POJO/MOJO是你想要去的方式(H2O集羣不具備高可用性)。不過,您需要確保自己正確處理傳入的數據。

如果您正在進行批處理評分,每晚或以其他方式進行,那麼使用Sparkling Water的二進制模型可能會有意義,因爲解析傳入數據變得微不足道(asH2OFrame(..)),並且評分很容易,因爲predict()