rdd

    0熱度

    2回答

    成員這是非常sad.My火花版本是2.1.1,斯卡拉版本是2.11 import org.apache.spark.SparkContext._ import com.mufu.wcsa.component.dimension.{DimensionKey, KeyTrait} import com.mufu.wcsa.log.LogRecord import org.apache.spark

    0熱度

    1回答

    我有一個RDD窗體(id1,id2,score)。頂部(5)行看起來像 [(41955624, 42044497, 3.913625989045223e-06), (41955624, 42039940, 0.0001018890937469129), (41955624, 42037797, 7.901647831291928e-05), (41955624, 42011137, -0.0

    0熱度

    1回答

    我有型ELEM的RDD: val clientXml: RDD[Elem] = parsedClient.filter(s => s.isSuccess).map(s => convertToXML.clientToXML(s.get)) 這RDD包含類型ELEM元素的集合,每個元素看起來是這樣的: <client> <first>Alexandra</first> <la

    1熱度

    1回答

    我正在測試由我在我的代碼中定義的簡單字符串分析器函數,但其​​中一個工作器節點在執行時總是失敗。這裏是我一直在測試假人代碼: /* JUST A SIMPLE PARSER TO CLEAN PARENTHESIS */ def parseString(field: String): String = { val Pattern = "(.*.)".r field match

    0熱度

    1回答

    Apache Spark具有Resilient Distributed Dataset的概念。 的RDD是: 它是對象的不可變的分佈式集合。 RDD中的每個數據集都被劃分爲邏輯分區,這些分區可以在集羣的不同節點上進行計算。 形式上,RDD是一個只讀的分區記錄集合。可以通過對穩定存儲或其他RDD上的數據進行確定性操作來創建RDD。 RDD是可以並行操作的容錯組件的容錯集合。 現在Clojure有im

    0熱度

    1回答

    我有一個RDD的分區包含元素(熊貓數據框,因爲它發生),可以很容易地變成行列表。把它看成是看起來像這樣 rows_list = [] for word in 'quick brown fox'.split(): rows = [] for i,c in enumerate(word): x = ord(c) + i row = pyspark.sql.

    1熱度

    3回答

    如何將RDD [Array [Row]]轉換爲RDD [Row]? 詳情: 我在我的解析函數返回類型數組[行]對一些數據和行一些數據的一些使用情況。我將如何將這兩個轉換爲RDD [行]以供進一步使用? 代碼示例 private def getRows(rdd: RDD[String], parser: Parser): RDD[Row] = { var processedLines = rdd

    0熱度

    1回答

    我有一個鍵/值對RDD {(("a", "b"), 1), (("a", "c"), 3), (("c", "d"), 5)} 我怎麼能拿稀疏矩陣: 0 1 3 0 1 0 0 0 3 0 0 5 0 0 5 0 即 from pyspark.mllib.linalg import Matrices Matrices.sparse(4, 4, [0, 2, 3, 5, 6], [1

    0熱度

    1回答

    我正在嘗試按特定順序將多個RDD的字符串合併到RDD行中。我試圖創建一個Map[String, RDD[Seq[String]]](其中Seq只包含一個元素),然後將它們合併到一個RDD[Row[String]],但它似乎不起作用(內容RDD[Seq[String]]丟失)。有人有什麼想法嗎? val t1: StructType val mapFields: Map[String, RDD[S

    1熱度

    1回答

    我使用pyspark 我用這個代碼: a = rdd.map(lambda x: function).toLocalIterator() from collections import Counter c = sum(a,Counter()) ,並出現以下錯誤 錯誤LiveListenerBus:SparkListenerBus已經停止!滴加 事件 SparkListenerStageCo