如何在Spark引擎上運行Mahout作業？

目前我正在使用Mahout RowSimilarity Job進行一些文檔相似性分析。這可以通過從控制檯運行命令'mahout rowsimilarity ...'輕鬆完成。不過我注意到這個Job也支持在Spark引擎上運行。我想知道如何在Spark Engine上運行此作業。如何在Spark引擎上運行Mahout作業？

來源

2015-06-01 H.Z.

你可以在Spark中使用MLhib替代mahout。 MLlib中的所有庫都以分佈式模式進行處理（Hadoop中的Map-reduce）。

在Mahout 0.10使用火花提供工作執行。

步驟與象夫設置火花。

1頁轉到你解開Spark和類型sbin目錄/ start-all.sh在本地啓動星火

2打開瀏覽器，它指向http://localhost:8080/檢查是否星火成功啓動的目錄。在頁面頂部的火花主的網址複製（它開始與火花：//）

3定義以下環境變量：出口MAHOUT_HOME = [你簽出亨利馬烏到哪個目錄] 出口SPARK_HOME = [目錄是你解開星火] 出口MASTER = [星火主的URL]

4最後，切換到該目錄是你解開象夫和類型斌/ Mahout的火花外殼，你應該看到的外殼開始，並得到提示mahout>。檢查常見問題以進一步排除故障

來源

2015-06-02 13:44:29 Tinku

請訪問link。它使用新的mahout 0.10，並使用火花服務器。

來源

2015-06-03 06:41:03 KlwntSingh

如何在Spark引擎上運行Mahout作業？

回答

相關問題