apache-spark

    5熱度

    2回答

    發現JDBC沒有合適的驅動程序,我使用 df.write.mode("append").jdbc("jdbc:mysql://ip:port/database", "table_name", properties) 插入到MySQL中的表。我的代碼中添加了Class.forName("com.mysql.jdbc.Driver")。 當我提交我的星火申請: spark-submit --cla

    1熱度

    1回答

    我有一個RDD,大約有7M條目,每個條目有10個規範化座標。我也有一些中心,我試圖將每個條目映射到最近的(歐幾里德距離)中心。問題是這隻會產生一個任務,這意味着它不是並行化的。這是形式: def doSomething(point,centers): for center in centers.value: if(distance(point,center)<1):

    1熱度

    1回答

    我在遠程集羣上運行YARN下的Spark安裝,並在我和頭節點之間有防火牆。我可以用一個ssh隧道接入到頭節點: > ssh -N -f -L 10000:remotenode:10000 between_machine 與此設置的作品,例如,訪問HiveServer2上remotenote運行。如果星火在集羣模式下運行,我需要做的只是在7077端口相同,直接pyspark客戶localhost

    -1熱度

    3回答

    我是Apache Spark的新手,我想知道是否可以使用Apache Spark來存儲數據。或者它只是一個處理工具? 感謝花費時間, 薩蒂亞

    8熱度

    1回答

    使用spark時,有時需要在每個任務中發送不可序列化的對象。 一個常見的模式是@transient lazy val,e.g class A(val a: Int) def compute(rdd: RDD[Int]) = { // lazy val instance = { @transient lazy val instance = { println("in

    13熱度

    1回答

    我剛開星火的竅門,我有一個需要被映射到一個rdd功能,但使用全球字典來RDD: from pyspark import SparkContext sc = SparkContext('local[*]', 'pyspark') my_dict = {"a": 1, "b": 2, "c": 3, "d": 4} # at no point will be modified my_list

    2熱度

    1回答

    我使用下面的命令提交星火的工作,我希望的jar和配置文件發送到每一個執行者,並將其裝載有 spark-submit --verbose \ --files=/tmp/metrics.properties \ --jars /tmp/datainsights-metrics-source-assembly-1.0.jar \ --total-executor-cores 4\ --conf

    0熱度

    1回答

    是否有一種簡單的方法來確定字段在配置單元查詢中是否爲數組類型? E.g. SELECT * FROM table INNER JOIN table2 ON (IS_TYPE(column) = 'array' AND array_contains(column, 'value1')

    -1熱度

    1回答

    我將在Spark上實現k-means。但是我需要以JSON格式存儲集羣信息。如何做呢? 注意:Python或Scala也可以。 提前致謝!

    0熱度

    1回答

    ,我有以下數據: val RDDApp = sc.parallelize(List("A", "B", "C")) val RDDUser = sc.parallelize(List(1, 2, 3)) val RDDInstalled = sc.parallelize(List((1, "A"), (1, "B"), (2, "B"), (2, "C"), (3, "A"))).groupB