rdd

0熱度

1回答

我有什麼似乎與Spark sorting of delimited data類似的問題，但接受的解決方案不能解決我的問題。我想一個簡單的RDD應用combineByKey： package foo import org.apache.spark._ import org.apache.spark.SparkConf import org.apache.spark.S

0熱度

1回答

將RDD [Map [String，Double]]轉換爲RDD [（String，Double）]

我做了一些計算並在包含scala地圖的RDD中返回了我的值，現在我想刪除此地圖並希望收集所有密鑰RDD中的值。任何幫助將不勝感激。

0熱度

1回答

爲什麼組合兩個spark工作會使性能比逐一運行更糟？

我有兩個spark實用函數：myUtility1和myUtility2。他們相互獨立，無論哪一個先跑。如果我運行： val outData1 = myUtiltity1.process(inputData, utilData1) 花了40分鐘。一切順利，沒有重試。如果我運行： val outData2 = myUtiltity2.process(inputData, utilData2)

3熱度

1回答

用於元組RDD的SortByValue

最近我被問到（在課堂作業中）是否可以找到RDD內出現的前10個詞。我提交了一份工作解決方案，看起來像 wordsRdd .map(x => (x, 1)) .reduceByKey(_ + _) .map(case (x, y) => (y, x)) .sortByKey(false) .map(case (x, y) => (y, x))

2熱度

1回答

如何避免KNN搜索循環？

我的目標是讓每個數據點的k個最近鄰居。我想避免在查找時使用for循環，並在每個rdd_distance點上同時使用其他的東西，但我無法弄清楚如何執行此操作。 parsedData = RDD[Object] //Object have an id and a vector as attribute //sqdist1 output is a Double var rdd_distance

5熱度

1回答

星火RDD檢查點被執行DAG兩次

當我運行的代碼如下所示： val newRDD = prevRDD.map(a => (a._1, 1L)).distinct.persist(StorageLevel.MEMORY_AND_DISK_SER) newRDD.checkpoint print(newRDD.count()) ，看在紗線的階段，我注意到，星火兩次做DAG計算 - - 一次用於實現RDD並將其緩存的獨特+計數，

1熱度

1回答

如何使用Scala Stack進行後綴算術計算？

我寫了一個算法來獲得一箇中綴語句將其更改爲postfix，現在我想對該語句執行計算。我看過this as a sample，但我無法理解它的某些部分會發生什麼。它正在使用Scala Stack。如何做這部分工作： case x :: y :: xs => xs ++ List(op(y, x)) ，我用我的計算類型是整數和RDDS因此，在這個例子中，如果我用「任何」取代「浮動」是對的嗎？

0熱度

2回答

如何在Scala中爲函數分配不同的返回類型？

我想寫一個函數，它應該根據輸入返回不同的對。我已經覆蓋了Scala中的「+ -/*」以供我特定的使用。每一個（+， - ，*，/）都有三個基於輸入的實現。我有RDD和Float作爲輸入，因此它可以是RDD和RDD之間的+，或Float和RDD，或者Float和Float等。現在我有一個解析器，它從輸入讀取表達式，如：RDD + 1，解析它並創建後綴，使計算變得更簡單，如：RDD1 +，然後我想用

0熱度

1回答

'case'關鍵字出現時沒有其對應的'match'關鍵字

我正在閱讀Spark書籍中的一個Scala示例。這對我來說看起來很奇怪，至少作爲一個新手。我知道Scala中的標準匹配/案例結構如何在Scala中看起來像。但在這個例子中，我看到'case'正被使用，沒有相應的'match'關鍵字。它甚至有效嗎？或者書中有更多的錯字？ val joined = userData.join(events)// RDD of (UserID, (UserInfo, L

0熱度

1回答

如何解析Scala中一個解析器中的兩種不同類型？

我已經寫了下面的代碼部分來解析表達式中的RDD類型和Float。解析算術表達式由浮子和RDD喜歡：「firstRDD + 2」： def term2: Parser[List[Either[Float, RDD[(Int,Array[Float])]]]] = rep(factor2) def factor2: Parser[Either[Float, RDD[(Int,Array[Float]