2015-06-01 29 views
1

目前我正在使用Mahout RowSimilarity Job進行一些文檔相似性分析。這可以通過從控制檯運行命令'mahout rowsimilarity ...'輕鬆完成。不過我注意到這個Job也支持在Spark引擎上運行。我想知道如何在Spark Engine上運行此作業。如何在Spark引擎上運行Mahout作業?

回答

1

你可以在Spark中使用MLhib替代mahout。 MLlib中的所有庫都以分佈式模式進行處理(Hadoop中的Map-reduce)。

在Mahout 0.10使用火花提供工作執行。

的更多細節鏈接 http://mahout.apache.org/users/sparkbindings/play-with-shell.html

步驟與象夫設置火花。

1頁轉到你解開Spark和類型sbin目錄/ start-all.sh在本地啓動星火

2打開瀏覽器,它指向http://localhost:8080/檢查是否星火成功啓動的目錄。在頁面頂部的火花主的網址複製(它開始與火花://)

3定義以下環境變量: 出口MAHOUT_HOME = [你簽出亨利馬烏到哪個目錄] 出口SPARK_HOME = [目錄是你解開星火] 出口MASTER = [星火主的URL]

4最後,切換到該目錄是你解開象夫和類型斌/ Mahout的火花外殼,你應該看到的外殼開始,並得到提示mahout>。檢查常見問題以進一步排除故障

0

請訪問link。它使用新的mahout 0.10,並使用火花服務器。

相關問題