我正在嘗試配置提交到羣集的pyspark作業。這pyspark公關(https://github.com/apache/spark/pull/2556)表示sc.dump_profiles(path)
是命令。我試圖將配置文件輸出轉儲到hadoop hdfs:///user/username/filename
,本地file:///home/username/filename
和/home/username/filename
。工作完成但配置文件從不出現。pyspark的配置文件缺少輸出
的代碼是基於這太問題(How to profile pyspark jobs),和sc.show_profiles()確實在交互模式下工作包括--conf spark.python.profile=true
時。
from pyspark import SparkContext, SparkConf
import logging
if __name__ == "__main__":
logging.getLogger("py4j").setLevel(logging.ERROR)
conf = SparkConf().setAppName("profile")
sc = SparkContext(conf=conf)
rdd = sc.parallelize(range(100)).map(str)
rdd.count()
sc.show_profiles()
sc.dump_profiles("hdfs:///user/username/python_profiled")
我提交作業這樣/opt/spark/bin/spark-submit --verbose --conf spark.python.profile=true --master yarn --deploy-mode cluster --queue production --num-executors 4 test_profile.py
如何格式化path
獲取配置文件輸出任何指針?