rdd

    -1熱度

    1回答

    我有一個文本文件作爲來源: - key1,value1 key2,value2 key3,value3 key4,value4 我在斯卡拉殼定義以下RDD: - val rdd=sc.textFile("sample.txt").map(_.split(",")).map(x=>(x(0),x(1))).sortByKey() 正如你所看到的,這裏只有轉換,沒有動作。按照Spark的

    4熱度

    2回答

    我正在做Spark(Python)的第一步,我正在努力處理groupByKey()中的迭代器。我無法總結的價值觀:我的代碼如下所示: example = sc.parallelize([('x',1), ('x',1), ('y', 1), ('z', 1)]) example.groupByKey() x [1,1] y [1] z [1] 如何對Iterator的總和?我想是這

    4熱度

    1回答

    我有以下解析器解析含有浮球RDD算術表達式: import scalaz._ import Scalaz._ def term2: Parser[List[\/[Float, RDD[(Int,Array[Float])]]]] = rep(factor2) def factor2: Parser[\/[Float, RDD[(Int,Array[Float])]]] = pathxml

    5熱度

    1回答

    我想在斯卡拉殼(司機)來定義一個String類型的累加器變量,但我不斷收到以下錯誤: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: org.apache.spark.AccumulatorParam[String

    4熱度

    1回答

    我試圖使用重新分區()方法更改RDD的分區大小。在RDD的方法調用成功,但是當我明確檢查使用RDD的partition.size財產的分區大小,我回來了相同數目的分區,它原本有: - scala> rdd.partitions.size res56: Int = 50 scala> rdd.repartition(10) res57: org.apache.spark.rdd.RDD[St

    3熱度

    2回答

    我有一個RDD,它是通過讀取一個大小爲117MB的本地文本文件形成的。 scala> rdd res87: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at <console>:24 我緩存RDD: - scala> rdd.persist() res84: rdd.type = MapPartiti

    0熱度

    1回答

    我是PySpark的新手,我想了解如何在PySpark中編寫多個嵌套for循環,下面是粗略的高級示例。 任何幫助將不勝感激。 for (i=0;i<10;i++) for (j=0;j<10;j++) for (k=0;k<10;k++) { print "i"."j"."k" }

    2熱度

    2回答

    我有一個字符串的一大RDD懶惰的foreach(通過幾種sc.textFile(...))工會獲得。 我現在想搜索該RDD給定的字符串,我想搜索時停止一個「足夠好」的比賽已經找到。 我可以改造foreach,或filter,或map用於此目的,但所有這些都將通過每一個元素在RDD迭代,不管比賽是否已經達到。 有沒有辦法將這個過程短路並避免id遍歷整個RDD?

    0熱度

    1回答

    我有這段代碼,它在獨立工作時很好,但在AWS上的4個從屬集羣(8個內存30Go內存)上工作速度很慢。 For a file of 10000 entries Standalone : 257s Aws 4S : 369s def tabHash(nb:Int, dim:Int) = { var tabHash0 = Array(Array(0.0)).tail

    2熱度

    1回答

    我對spark和scala很新穎,因此我有一些關於使用spark和使用rdds進行數據預處理的問題。 我正在開發一個小項目,我想用spark實現一個機器學習系統。使用這些算法是可以的,但我認爲在預處理數據時遇到了問題。 我有一個包含30列和大約一百萬行的數據集。但是,爲了簡單起見,讓我們假設我有以下的數據集(CSV文件): columnA, columnB, column_txt, label