rdd

0熱度

1回答

我有一個2 RDDs。在Spark scala中，如果他們具有相同的ID，我如何加入event1001RDD和event2009RDD？ VAL event1001RDD：schemaRDD = [事件類型，ID，位置，日期1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39] [

3熱度

1回答

火花RDD發現通過鍵

我已經從HBase的轉化的RDD： VAL hbaseRDD：RDD [（字符串，數組[字符串]）]其中tuple._1是rowkey。而數組是HBase中的值。 4929101-ACTIVE, ["4929101","2015-05-20 10:02:44","dummy1","dummy2"] 4929102-ACTIVE, ["4929102","2015-05-20 10:02:44",

0熱度

2回答

數組火花關閉

我有一個數組，它在封閉內（它有一些值），但在循環外，數組大小爲0.我想知道是什麼原因導致行爲如此？我需要hArr可以在批處理HBase之外訪問。 val hArr = new ArrayBuffer[Put]() rdd.foreach(row => { val hConf = HBaseConfiguration.create() val hTable = new HT

2熱度

2回答

加入兩（非）配對RDDS做一個數據幀

正如標題所描述，說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

1熱度

1回答

火花：如何映射二者組成獨特<em>ID</em>鍵和<em>矢量</em>值（例如<code>RDD[Int,DenseVector]</code>），I當需要訪問另一RDD

給定兩個大的密鑰值對RDDS（d1和d2）的RDD，需要映射d1以便使用向量之間的歐幾里德距離度量爲其每個元素獲得d2中最接近的元素的ID。我還沒有找到使用標準RDD轉換的方法。據我所知，嵌套RDDS沒有在星火允許的，但是，如果有可能，一個簡單的解決辦法是： d1.map((k,v) => (k, d2.map{case (k2, v2) => val diff = (v - v2); (k2,

10熱度

2回答

Spark當聯合很多RDD引發堆棧溢出錯誤

當我使用「++」來合併很多RDD時，我得到了錯誤堆棧溢出錯誤。 Spark版本1.3.1 環境：yarn-client。 - 驅動器內存8G RDD的數量超過4000個。每個RDD都從大小爲1 GB的文本文件中讀取。正是在這種方式 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ unio

0熱度

1回答

spark是否會創建兩個數據集或工作於相同邏輯的階段？

我試圖從一個CSV文件讀取並將這些條目插入到數據庫中。我發現內部火花創建了兩個RDD，即rdd_0_0和rdd_0_1，它對相同的數據起作用並進行所有處理。任何人都可以幫忙找出爲什麼調用方法被不同的數據集調用兩次。如果創建了兩個數據集/階段，爲什麼他們兩個都工作在相同的邏輯？請幫助我確認，如果是這種情況，火花的作品？ public final class TestJavaAggregati

3熱度

3回答

Spark插入到HBase慢

我使用Spark插入到HBase，但速度很慢。對於60,000條記錄，需要2-3分鐘。我有大約1000萬條記錄要保存。 object WriteToHbase extends Serializable { def main(args: Array[String]) { val csvRows: RDD[Array[String] = ... val dateFor

2熱度

1回答

火花如何處理缺失值？

Apache Spark支持稀疏數據。例如，我們可以使用MLUtils.loadLibSVMFile(...)將數據加載到RDD中。我想知道spark如何處理那些missing values。

0熱度

1回答

如何通過Spark控制RDD的隱式緩存？

作爲Spark的新手，我一直在尋找他們的python example for estimation of PI。我有興趣瞭解Spark在相同環境下多次重新估計PI的性能。我觀察到的是，在這些重新估計中，PI的值保持不變，並且性能計時似乎表明中間RDD被隱式高速緩存，然後在隨後的計算中重新使用。有什麼辦法可以配置Spark來控制這種行爲，並且中間的RDD總是被重新生成？使用unpersist（