rdd

    1熱度

    1回答

    data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a','b','c', 9,8), ('s','q','a', 10,10), ('l','g','z', 20,20), ('o','u','w', 77,77)]

    0熱度

    2回答

    關於如何在pyspark 1.6.1中將rdd轉換爲數據幀並將數據幀轉換回rdd的任何示例? toDF()不能在1.6.1中使用? 例如,我有一個這樣的RDD: data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a'

    0熱度

    1回答

    我已經擁有的Unicode值的列表列表的火花RDD: ex_rdd.take(5) [[u'70450535982412348', u'1000000923', u'1'], [u'535982417348', u'1000000923', u'1'], [u'50535929459899', u'1000000923', u'99'], [u'8070450535936297811',

    -2熱度

    1回答

    我對Spark和Scala頗爲陌生,並且擁有Java背景。我已經在haskell中做了一些編程,所以對函數式編程不是全新的。 我正試圖完成某種形式的嵌套for循環。我有一個RDD,我想根據RDD中的每兩個元素來操作。僞碼(類似Java的)應該是這樣的: // some RDD named rdd is available before this List list = new ArrayList

    0熱度

    1回答

    在PySpark,我有2 RDD的其結構爲(鍵,名單列表): input_rdd.take(2) [(u'100', [[u'36003165800', u'70309879', u'1']]), (u'200', [[u'5196352600', u'194837393', u'99']]) ] output_rdd.take(2) [(u'100', [

    0熱度

    2回答

    我有具有以下結構的RDD: ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) 此比特幣blockchain的邊緣(事務)的表示。 (ByteArray, Idx)可以看作是一個標識符,其餘的是一個邊緣。我的最終目標是聚合區塊鏈圖形表示中的節點。對此我需要做的第一次修改是將同一個比特幣交易中的資源放在一個邊緣(最終在一個節

    0熱度

    1回答

    我從csv文件中加載了一個RDD。但是,該文件包含無效數據。所以,當我試圖輸出這個RDD與first的聯繫人。唯一的例外是 產生的原因:java.lang.NumberFormatException:空字符串 我希望找到解決辦法來去除RDD的所有記錄,當一個記錄包括空字符串。另外,這個RDD包含很多領域,所以很難一一處理每個領域。我記得DataFrame有這樣的功能,比如na.drop()。我需要

    -1熱度

    1回答

    RDD.takeOrdered 我得到這個試圖與SBT編譯 sbt test 從/家庭/共享/阿爾託/ SCC/AS1/RDD /項目 [信息]加載項目定義[info]將當前項目設置爲rdd(在構建文件中:/ home/shared/Aalto/SCC/As1/rdd /) [info]編譯1個Scala源文件到/ home/shared/Aalto/SCC/As1/rdd/target /s

    0熱度

    2回答

    我是Scala和Spark的新手。我試圖刪除文本文件的重複行。 每行包含三列(矢量值),如:-4.5,-4.2,2.7 這是我的計劃: import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import scala.collection.mu

    1熱度

    1回答

    的成員這是我的整個樣本代碼: package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new SparkConf().set