適合分佈式，獨立預測

如何在分佈式大數據平臺（例如Apache Spark）中訓練（適合）模型，但在獨立機器（如JVM）中使用該模型，可能？適合分佈式，獨立預測

我聽說PMML但我不確定是否足夠。另外Spark 2.0 supports persistent model保存，但我不知道什麼是必要的加載和運行這些模型。

2016-08-19 Hanan Shteingart

Apache Spark持久性是關於以JSON數據格式保存和加載Spark ML管道（將其視爲Python的pickle機制或R的RDS機制）。這些JSON數據結構映射到Spark ML類。他們在其他平臺上沒有意義。

對於PMML，則可以使用JPMML-SparkML庫將Spark ML管道轉換爲PMML文檔。您可以使用JPMML-Evaluator庫執行PMML文檔（無論它們是否來自Apache Spark，Python或R）。如果您使用Apache Maven來管理和構建項目，那麼可以通過向項目的POM添加一個依賴聲明來包含JPMML-Evaluator。

來源

2016-08-19 17:05:06 user1808924

適合分佈式，獨立預測

回答

相關問題