rdd

0熱度

2回答

值reduceByKey不是org.apache.spark.rdd.RDD

成員這是非常sad.My火花版本是2.1.1，斯卡拉版本是2.11 import org.apache.spark.SparkContext._ import com.mufu.wcsa.component.dimension.{DimensionKey, KeyTrait} import com.mufu.wcsa.log.LogRecord import org.apache.spark

0熱度

1回答

Pyspark：將RDD轉換爲RowMatrix

我有一個RDD窗體（id1，id2，score）。頂部（5）行看起來像 [(41955624, 42044497, 3.913625989045223e-06), (41955624, 42039940, 0.0001018890937469129), (41955624, 42037797, 7.901647831291928e-05), (41955624, 42011137, -0.0

0熱度

1回答

節約RDD [ELEM]到一個XML文件

我有型ELEM的RDD： val clientXml: RDD[Elem] = parsedClient.filter(s => s.isSuccess).map(s => convertToXML.clientToXML(s.get)) 這RDD包含類型ELEM元素的集合，每個元素看起來是這樣的： <client> <first>Alexandra</first> <la

1熱度

1回答

Spark集羣中的RDD映射函數內調用函數

我正在測試由我在我的代碼中定義的簡單字符串分析器函數，但其中一個工作器節點在執行時總是失敗。這裏是我一直在測試假人代碼： /* JUST A SIMPLE PARSER TO CLEAN PARENTHESIS */ def parseString(field: String): String = { val Pattern = "(.*.)".r field match

0熱度

1回答

在本地Clojure中是否存在與彈性分佈式數據集的等效項？

Apache Spark具有Resilient Distributed Dataset的概念。的RDD是：它是對象的不可變的分佈式集合。 RDD中的每個數據集都被劃分爲邏輯分區，這些分區可以在集羣的不同節點上進行計算。形式上，RDD是一個只讀的分區記錄集合。可以通過對穩定存儲或其他RDD上的數據進行確定性操作來創建RDD。 RDD是可以並行操作的容錯組件的容錯集合。現在Clojure有im

0熱度

1回答

RDD的pyspark行列表DataFrame

我有一個RDD的分區包含元素（熊貓數據框，因爲它發生），可以很容易地變成行列表。把它看成是看起來像這樣 rows_list = [] for word in 'quick brown fox'.split(): rows = [] for i,c in enumerate(word): x = ord(c) + i row = pyspark.sql.

1熱度

3回答

將RDD [Array [Row]]轉換爲RDD [Row]

如何將RDD [Array [Row]]轉換爲RDD [Row]？詳情：我在我的解析函數返回類型數組[行]對一些數據和行一些數據的一些使用情況。我將如何將這兩個轉換爲RDD [行]以供進一步使用？代碼示例 private def getRows(rdd: RDD[String], parser: Parser): RDD[Row] = { var processedLines = rdd

0熱度

1回答

如何pyspark轉換RDD爲稀疏矩陣

我有一個鍵/值對RDD {(("a", "b"), 1), (("a", "c"), 3), (("c", "d"), 5)} 我怎麼能拿稀疏矩陣： 0 1 3 0 1 0 0 0 3 0 0 5 0 0 5 0 即 from pyspark.mllib.linalg import Matrices Matrices.sparse(4, 4, [0, 2, 3, 5, 6], [1

0熱度

1回答

按特定順序合併多個RDD

我正在嘗試按特定順序將多個RDD的字符串合併到RDD行中。我試圖創建一個Map[String, RDD[Seq[String]]]（其中Seq只包含一個元素），然後將它們合併到一個RDD[Row[String]]，但它似乎不起作用（內容RDD[Seq[String]]丟失）。有人有什麼想法嗎？ val t1: StructType val mapFields: Map[String, RDD[S

1熱度

1回答

pyspark localiterator監聽器已經停止

我使用pyspark 我用這個代碼： a = rdd.map(lambda x: function).toLocalIterator() from collections import Counter c = sum(a,Counter()) ，並出現以下錯誤錯誤LiveListenerBus：SparkListenerBus已經停止！滴加事件 SparkListenerStageCo