Q

如何在羣集模式下運行spark，但是在本地執行文件？

2016-07-05 115 views 1 likes

1

是否有可能讓本地文件作爲輸入，但處理它分發？如何在羣集模式下運行spark，但是在本地執行文件？

我在我的代碼中有sc.textFile(file:///path-to-file-locally)，我知道文件的確切路徑是正確的。然而，我仍然越來越

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. 
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 14, spark-slave11.ydcloud.net): java.io.FileNotFoundException: File file:/<path to file> does not exist

我運行火花分佈，而不是本地。爲什麼錯誤存在？

2016-07-05 buzzinolops

A

回答

3

這是可能的，但是當你聲明本地路徑作爲輸入時，它必須出現在每個工作機器和驅動程序上。所以這意味着您必須首先手動或使用內置工具（如SparkFiles）進行分發。

2016-07-05 19:15:42 zero323

+0

感謝。我想你也可以使用hadoop命令先分發文件，運行spark，然後使用hadoop命令刪除文件。對？ – buzzinolops

+0

當然。重點是 - 如果您讀取數據，則必須在羣集中的每臺計算機上都可訪問。 – zero323

3

這些文件必須位於所有節點均可訪問的集中位置。這可以通過使用分佈式文件系統來實現，dse提供了被稱爲CFS（Cassandra文件系統）的HDFS的替代品。當使用-k選項在分析模式下啓動dse時，cfs可用。

對於設置和使用CFS的進一步的細節，你可以看看下面的鏈接http://docs.datastax.com/en/datastax_enterprise/4.8/datastax_enterprise/ana/anaCFS.html

2016-07-05 20:15:08

相關問題