apache-spark

5熱度

2回答

發現JDBC沒有合適的驅動程序，我使用 df.write.mode("append").jdbc("jdbc:mysql://ip:port/database", "table_name", properties) 插入到MySQL中的表。我的代碼中添加了Class.forName("com.mysql.jdbc.Driver")。當我提交我的星火申請： spark-submit --cla

1熱度

1回答

火花地圖只是一個任務，它應該是平行的（PySpark）

我有一個RDD，大約有7M條目，每個條目有10個規範化座標。我也有一些中心，我試圖將每個條目映射到最近的（歐幾里德距離）中心。問題是這隻會產生一個任務，這意味着它不是並行化的。這是形式： def doSomething(point,centers): for center in centers.value: if(distance(point,center)<1):

1熱度

1回答

通過SSH隧道連接到通過YARN運行的Spark

我在遠程集羣上運行YARN下的Spark安裝，並在我和頭節點之間有防火牆。我可以用一個ssh隧道接入到頭節點： > ssh -N -f -L 10000:remotenode:10000 between_machine 與此設置的作品，例如，訪問HiveServer2上remotenote運行。如果星火在集羣模式下運行，我需要做的只是在7077端口相同，直接pyspark客戶localhost

-1熱度

3回答

我們可以使用Apache Spark來存儲數據嗎？或者它只是一個數據處理工具？

我是Apache Spark的新手，我想知道是否可以使用Apache Spark來存儲數據。或者它只是一個處理工具？感謝花費時間，薩蒂亞

8熱度

1回答

使用或不使用@transient序列化lazy val時的區別

使用spark時，有時需要在每個任務中發送不可序列化的對象。一個常見的模式是@transient lazy val，e.g class A(val a: Int) def compute(rdd: RDD[Int]) = { // lazy val instance = { @transient lazy val instance = { println("in

13熱度

1回答

廣播字典中PySpark

我剛開星火的竅門，我有一個需要被映射到一個rdd功能，但使用全球字典來RDD： from pyspark import SparkContext sc = SparkContext('local[*]', 'pyspark') my_dict = {"a": 1, "b": 2, "c": 3, "d": 4} # at no point will be modified my_list

2熱度

1回答

如何獲得工作目錄中執行

我使用下面的命令提交星火的工作，我希望的jar和配置文件發送到每一個執行者，並將其裝載有 spark-submit --verbose \ --files=/tmp/metrics.properties \ --jars /tmp/datainsights-metrics-source-assembly-1.0.jar \ --total-executor-cores 4\ --conf

0熱度

1回答

Hive IsType（）UDF

是否有一種簡單的方法來確定字段在配置單元查詢中是否爲數組類型？ E.g. SELECT * FROM table INNER JOIN table2 ON (IS_TYPE(column) = 'array' AND array_contains(column, 'value1')

-1熱度

1回答

將K-means集羣信息Apache Spark提取到JSON中

我將在Spark上實現k-means。但是我需要以JSON格式存儲集羣信息。如何做呢？注意：Python或Scala也可以。提前致謝！

0熱度

1回答

星火表改造（錯誤：5063）

，我有以下數據： val RDDApp = sc.parallelize(List("A", "B", "C")) val RDDUser = sc.parallelize(List(1, 2, 3)) val RDDInstalled = sc.parallelize(List((1, "A"), (1, "B"), (2, "B"), (2, "C"), (3, "A"))).groupB