0
如何在分佈式大數據平臺(例如Apache Spark)中訓練(適合)模型,但在獨立機器(如JVM)中使用該模型,可能?適合分佈式,獨立預測
我聽說PMML但我不確定是否足夠。另外Spark 2.0 supports persistent model保存,但我不知道什麼是必要的加載和運行這些模型。
如何在分佈式大數據平臺(例如Apache Spark)中訓練(適合)模型,但在獨立機器(如JVM)中使用該模型,可能?適合分佈式,獨立預測
我聽說PMML但我不確定是否足夠。另外Spark 2.0 supports persistent model保存,但我不知道什麼是必要的加載和運行這些模型。
Apache Spark持久性是關於以JSON數據格式保存和加載Spark ML管道(將其視爲Python的pickle機制或R的RDS機制)。這些JSON數據結構映射到Spark ML類。他們在其他平臺上沒有意義。
對於PMML,則可以使用JPMML-SparkML庫將Spark ML管道轉換爲PMML文檔。您可以使用JPMML-Evaluator庫執行PMML文檔(無論它們是否來自Apache Spark,Python或R)。如果您使用Apache Maven來管理和構建項目,那麼可以通過向項目的POM添加一個依賴聲明來包含JPMML-Evaluator。