rdd

    0熱度

    1回答

    我有一個2 RDDs。在Spark scala中,如果他們具有相同的ID,我如何加入event1001RDD和event2009RDD? VAL event1001RDD:schemaRDD = [事件類型,ID,位置,日期1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39] [

    3熱度

    1回答

    我已經從HBase的轉化的RDD: VAL hbaseRDD:RDD [(字符串,數組[字符串])]其中tuple._1是rowkey。而數組是HBase中的值。 4929101-ACTIVE, ["4929101","2015-05-20 10:02:44","dummy1","dummy2"] 4929102-ACTIVE, ["4929102","2015-05-20 10:02:44",

    0熱度

    2回答

    我有一個數組,它在封閉內(它有一些值),但在循環外,數組大小爲0.我想知道是什麼原因導致行爲如此? 我需要hArr可以在批處理HBase之外訪問。 val hArr = new ArrayBuffer[Put]() rdd.foreach(row => { val hConf = HBaseConfiguration.create() val hTable = new HT

    2熱度

    2回答

    正如標題所描述,說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

    1熱度

    1回答

    給定兩個大的密鑰值對RDDS(d1和d2)的RDD,需要映射d1以便使用向量之間的歐幾里德距離度量爲其每個元素獲得d2中最接近的元素的ID。 我還沒有找到使用標準RDD轉換的方法。據我所知,嵌套RDDS沒有在星火允許的,但是,如果有可能,一個簡單的解決辦法是: d1.map((k,v) => (k, d2.map{case (k2, v2) => val diff = (v - v2); (k2,

    10熱度

    2回答

    當我使用「++」來合併很多RDD時,我得到了錯誤堆棧溢出錯誤。 Spark版本1.3.1 環境:yarn-client。 - 驅動器內存8G RDD的數量超過4000個。每個RDD都從大小爲1 GB的文本文件中讀取。 正是在這種方式 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ unio

    0熱度

    1回答

    我試圖從一個CSV文件讀取並將這些條目插入到數據庫中。 我發現內部火花創建了兩個RDD,即rdd_0_0和rdd_0_1,它對相同的數據起作用並進行所有處理。 任何人都可以幫忙找出爲什麼調用方法被不同的數據集調用兩次。 如果創建了兩個數據集/階段,爲什麼他們兩個都工作在相同的邏輯? 請幫助我確認,如果是這種情況,火花的作品? public final class TestJavaAggregati

    3熱度

    3回答

    我使用Spark插入到HBase,但速度很慢。對於60,000條記錄,需要2-3分鐘。我有大約1000萬條記錄要保存。 object WriteToHbase extends Serializable { def main(args: Array[String]) { val csvRows: RDD[Array[String] = ... val dateFor

    2熱度

    1回答

    Apache Spark支持稀疏數據。 例如,我們可以使用MLUtils.loadLibSVMFile(...)將數據加載到RDD中。 我想知道spark如何處理那些missing values。

    0熱度

    1回答

    作爲Spark的新手,我一直在尋找他們的python example for estimation of PI。 我有興趣瞭解Spark在相同環境下多次重新估計PI的性能。 我觀察到的是,在這些重新估計中,PI的值保持不變,並且性能計時似乎表明中間RDD被隱式高速緩存,然後在隨後的計算中重新使用。 有什麼辦法可以配置Spark來控制這種行爲,並且中間的RDD總是被重新生成?使用unpersist(