rdd

1熱度

1回答

data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a','b','c', 9,8), ('s','q','a', 10,10), ('l','g','z', 20,20), ('o','u','w', 77,77)]

0熱度

2回答

如何在pyspark 1.6.1中將rdd轉換爲數據框？

關於如何在pyspark 1.6.1中將rdd轉換爲數據幀並將數據幀轉換回rdd的任何示例？ toDF()不能在1.6.1中使用？例如，我有一個這樣的RDD： data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a'

0熱度

1回答

轉換表Unicode值RDD列表轉換爲字符串

我已經擁有的Unicode值的列表列表的火花RDD： ex_rdd.take(5) [[u'70450535982412348', u'1000000923', u'1'], [u'535982417348', u'1000000923', u'1'], [u'50535929459899', u'1000000923', u'99'], [u'8070450535936297811',

-2熱度

1回答

使用Scala中的RDD.map（）執行嵌套循環

我對Spark和Scala頗爲陌生，並且擁有Java背景。我已經在haskell中做了一些編程，所以對函數式編程不是全新的。我正試圖完成某種形式的嵌套for循環。我有一個RDD，我想根據RDD中的每兩個元素來操作。僞碼（類似Java的）應該是這樣的： // some RDD named rdd is available before this List list = new ArrayList

0熱度

1回答

Pyspark：使用地圖功能，而不是收集迭代RDDS

在PySpark，我有2 RDD的其結構爲（鍵，名單列表）： input_rdd.take(2) [(u'100', [[u'36003165800', u'70309879', u'1']]), (u'200', [[u'5196352600', u'194837393', u'99']]) ] output_rdd.take(2) [(u'100', [

0熱度

2回答

如何創建上的RDD（斯卡拉）嵌套for循環

我有具有以下結構的RDD： ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) 此比特幣blockchain的邊緣（事務）的表示。 (ByteArray, Idx)可以看作是一個標識符，其餘的是一個邊緣。我的最終目標是聚合區塊鏈圖形表示中的節點。對此我需要做的第一次修改是將同一個比特幣交易中的資源放在一個邊緣（最終在一個節

0熱度

1回答

如何刪除RDD中的所有記錄，包括null？

我從csv文件中加載了一個RDD。但是，該文件包含無效數據。所以，當我試圖輸出這個RDD與first的聯繫人。唯一的例外是產生的原因：java.lang.NumberFormatException：空字符串我希望找到解決辦法來去除RDD的所有記錄，當一個記錄包括空字符串。另外，這個RDD包含很多領域，所以很難一一處理每個領域。我記得DataFrame有這樣的功能，比如na.drop()。我需要

-1熱度

1回答

火花的參數太多斯卡拉

RDD.takeOrdered 我得到這個試圖與SBT編譯 sbt test 從/家庭/共享/阿爾託/ SCC/AS1/RDD /項目 [信息]加載項目定義[info]將當前項目設置爲rdd（在構建文件中：/ home/shared/Aalto/SCC/As1/rdd /） [info]編譯1個Scala源文件到/ home/shared/Aalto/SCC/As1/rdd/target /s

0熱度

2回答

Scala地圖過濾方法

我是Scala和Spark的新手。我試圖刪除文本文件的重複行。每行包含三列（矢量值），如：-4.5，-4.2,2.7 這是我的計劃： import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import scala.collection.mu

1熱度

1回答

值查找不org.apache.spark.rdd.RDD

的成員這是我的整個樣本代碼： package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new SparkConf().set