rdd

    1熱度

    1回答

    我創建了一個本地的Spark集羣,並從它像下面 val sparkConf = new SparkConf(true).setAppName("test").setMaster("local[8]") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() 使用它,我也成功創建虛擬dataframe

    4熱度

    1回答

    很多人說: Spark不會複製hdfs中的數據。 Spark將操作放置在DAG圖中.Spark構建RDD譜系。如果一個RDD丟失了,他們可以在血統圖的幫助下重建。 所以不需要數據複製,因爲RDDS可以從血統圖重新計算。 我的問題是: 如果一個節點出現故障,火花只會重新計算RDD分區失去了這個節點上,但哪裏的recompution過程所需的數據源從何而來?當節點失效時,你的意思是它的父RDD還在嗎?

    0熱度

    1回答

    (1)Spark如何決定爲RDD驅逐哪個分區? (2)LRU和RDD StorageLevel之間的關係是什麼? (3)如果數據源大小非常大(大於所有執行程序內存的總和),那麼如何觸發加載數據並創建RDD?它與LRU有關嗎? 我創建了這個問題,目的是獲得有關RDD LRU驅逐,StorageLevel的一些細節。

    0熱度

    3回答

    有沒有一種方法可以解開Pyspark中元組中的元組? 的數據是這樣的: [('123', '0001-01-01', '2500-01-01', (26, 'X', 'A', '4724', '4724')), ('123', '0001-01-01', '2500-01-01', (21, 'S', 'A', '8247', '8247'))] 我希望它看起來像: [('123', '000

    1熱度

    1回答

    我是新來的spark和scala,我想出了scala編譯錯誤: 讓我們說我們有一個rdd,這是一個這樣的地圖: val rawData = someRDD.map{ //some ops Map( "A" -> someInt_var1 //Int "B" -> someInt_var2 //Int "C" -> somelong_var //Lon

    0熱度

    2回答

    的我從DF列 ##converting a column into an rdd rdd = eDF_review_split.select('splReview').rdd.map(list) ##print rdd.take(10) 我得到的結果是由一個RDD如下 [[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u's

    2熱度

    3回答

    我有星火Scala的一個問題,我想指望從個R dd數據平均,我創建了一個新的RDD這樣, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)] 我想指望他們這樣, [(2,(110+130+120)/3),(3,(200+206+206)/3),(4,(150+160+170)/3)] 那麼,得到

    0熱度

    1回答

    我使用Scala的火花,我想在一個RDD更新一倍的值,我的數據formtat是這樣的, [510116,8042,1,8298,20170907181326,1,3,lineno805] [510116,8042,1,8152,20170907182101,1,3,lineno805] [510116,8042,1,8154,20170907164311,1,3,lineno805] [51

    2熱度

    1回答

    我已經在pyspark數據框下面的數據稱爲end_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A B 我想要聚合它以下列方式:

    0熱度

    1回答

    這是我的data:RDD[Array[String]]火花。我想統計數據中所有元素長度的總和。例如data:(Array(1,2),Array(1,2,3))。我想得到總和:2 + 3 = 5; 起初,我用:data.flatMap(_).count(), 錯誤: error: missing parameter type for expanded function ((x$1) => data.