rdd

-1熱度

1回答

我有一個文本文件作爲來源： - key1,value1 key2,value2 key3,value3 key4,value4 我在斯卡拉殼定義以下RDD： - val rdd=sc.textFile("sample.txt").map(_.split(",")).map(x=>(x(0),x(1))).sortByKey() 正如你所看到的，這裏只有轉換，沒有動作。按照Spark的

4熱度

2回答

如何在PySpark中的迭代器中求和值groupByKey（）

我正在做Spark（Python）的第一步，我正在努力處理groupByKey()中的迭代器。我無法總結的價值觀：我的代碼如下所示： example = sc.parallelize([('x',1), ('x',1), ('y', 1), ('z', 1)]) example.groupByKey() x [1,1] y [1] z [1] 如何對Iterator的總和？我想是這

4熱度

1回答

如何解決編譯器發現Serializable而不是匹配類型時的類型不匹配？

我有以下解析器解析含有浮球RDD算術表達式： import scalaz._ import Scalaz._ def term2: Parser[List[\/[Float, RDD[(Int,Array[Float])]]]] = rep(factor2) def factor2: Parser[\/[Float, RDD[(Int,Array[Float])]]] = pathxml

5熱度

1回答

無法申報串式蓄能器

我想在斯卡拉殼（司機）來定義一個String類型的累加器變量，但我不斷收到以下錯誤： - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: org.apache.spark.AccumulatorParam[String

4熱度

1回答

重新分區（）不影響RDD分區大小

我試圖使用重新分區（）方法更改RDD的分區大小。在RDD的方法調用成功，但是當我明確檢查使用RDD的partition.size財產的分區大小，我回來了相同數目的分區，它原本有： - scala> rdd.partitions.size res56: Int = 50 scala> rdd.repartition(10) res57: org.apache.spark.rdd.RDD[St

3熱度

2回答

高速緩存後「採取」行動RDD導致只有2％高速緩存

我有一個RDD，它是通過讀取一個大小爲117MB的本地文本文件形成的。 scala> rdd res87: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at <console>:24 我緩存RDD： - scala> rdd.persist() res84: rdd.type = MapPartiti

0熱度

1回答

用於嵌套循環的pyspark程序

我是PySpark的新手，我想了解如何在PySpark中編寫多個嵌套for循環，下面是粗略的高級示例。任何幫助將不勝感激。 for (i=0;i<10;i++) for (j=0;j<10;j++) for (k=0;k<10;k++) { print "i"."j"."k" }

2熱度

2回答

在星火RDD

我有一個字符串的一大RDD懶惰的foreach（通過幾種sc.textFile(...))工會獲得。我現在想搜索該RDD給定的字符串，我想搜索時停止一個「足夠好」的比賽已經找到。我可以改造foreach，或filter，或map用於此目的，但所有這些都將通過每一個元素在RDD迭代，不管比賽是否已經達到。有沒有辦法將這個過程短路並避免id遍歷整個RDD？

0熱度

1回答

集羣上的Spark作業比單獨的更慢

我有這段代碼，它在獨立工作時很好，但在AWS上的4個從屬集羣（8個內存30Go內存）上工作速度很慢。 For a file of 10000 entries Standalone : 257s Aws 4S : 369s def tabHash(nb:Int, dim:Int) = { var tabHash0 = Array(Array(0.0)).tail

2熱度

1回答

使用apache spark和scala進行數據預處理

我對spark和scala很新穎，因此我有一些關於使用spark和使用rdds進行數據預處理的問題。我正在開發一個小項目，我想用spark實現一個機器學習系統。使用這些算法是可以的，但我認爲在預處理數據時遇到了問題。我有一個包含30列和大約一百萬行的數據集。但是，爲了簡單起見，讓我們假設我有以下的數據集（CSV文件）： columnA, columnB, column_txt, label