rdd

    0熱度

    1回答

    我有什麼似乎與Spark sorting of delimited data類似的問題,但接受的解決方案不能解決我的問題。 我想一個簡單的RDD應用combineByKey: package foo import org.apache.spark._ import org.apache.spark.SparkConf import org.apache.spark.S

    0熱度

    1回答

    我做了一些計算並在包含scala地圖的RDD中返回了我的值,現在我想刪除此地圖並希望收集所有密鑰RDD中的值。 任何幫助將不勝感激。

    0熱度

    1回答

    我有兩個spark實用函數:myUtility1和myUtility2。他們相互獨立,無論哪一個先跑。 如果我運行: val outData1 = myUtiltity1.process(inputData, utilData1) 花了40分鐘。一切順利,沒有重試。 如果我運行: val outData2 = myUtiltity2.process(inputData, utilData2)

    3熱度

    1回答

    最近我被問到(在課堂作業中)是否可以找到RDD內出現的前10個詞。我提交了一份工作解決方案,看起來像 wordsRdd .map(x => (x, 1)) .reduceByKey(_ + _) .map(case (x, y) => (y, x)) .sortByKey(false) .map(case (x, y) => (y, x))

    2熱度

    1回答

    我的目標是讓每個數據點的k個最近鄰居。我想避免在查找時使用for循環,並在每個rdd_distance點上同時使用其他的東西,但我無法弄清楚如何執行此操作。 parsedData = RDD[Object] //Object have an id and a vector as attribute //sqdist1 output is a Double var rdd_distance

    5熱度

    1回答

    當我運行的代碼如下所示: val newRDD = prevRDD.map(a => (a._1, 1L)).distinct.persist(StorageLevel.MEMORY_AND_DISK_SER) newRDD.checkpoint print(newRDD.count()) ,看在紗線的階段,我注意到,星火兩次做DAG計算 - - 一次用於實現RDD並將其緩存的獨特+計數,

    1熱度

    1回答

    我寫了一個算法來獲得一箇中綴語句將其更改爲postfix,現在我想對該語句執行計算。我看過this as a sample,但我無法理解它的某些部分會發生什麼。它正在使用Scala Stack。 如何做這部分工作: case x :: y :: xs => xs ++ List(op(y, x)) ,我用我的計算類型是整數和RDDS因此,在這個例子中,如果我用「任何」取代「浮動」是對的嗎?

    0熱度

    2回答

    我想寫一個函數,它應該根據輸入返回不同的對。我已經覆蓋了Scala中的「+ -/*」以供我特定的使用。每一個(+, - ,*,/)都有三個基於輸入的實現。我有RDD和Float作爲輸入,因此它可以是RDD和RDD之間的+,或Float和RDD,或者Float和Float等。 現在我有一個解析器,它從輸入讀取表達式,如:RDD + 1,解析它並創建後綴,使計算變得更簡單,如:RDD1 +,然後我想用

    0熱度

    1回答

    我正在閱讀Spark書籍中的一個Scala示例。這對我來說看起來很奇怪,至少作爲一個新手。我知道Scala中的標準匹配/案例結構如何在Scala中看起來像。但在這個例子中,我看到'case'正被使用,沒有相應的'match'關鍵字。它甚至有效嗎?或者書中有更多的錯字? val joined = userData.join(events)// RDD of (UserID, (UserInfo, L

    0熱度

    1回答

    我已經寫了下面的代碼部分來解析表達式中的RDD類型和Float。解析算術表達式由浮子和RDD喜歡:「firstRDD + 2」: def term2: Parser[List[Either[Float, RDD[(Int,Array[Float])]]]] = rep(factor2) def factor2: Parser[Either[Float, RDD[(Int,Array[Float]