我無法理解類似sortByKey的函數可以調用的集合的數據類型。我有一個ListMap(我想要一個按順序存儲元素的數據結構),我想調用sortByKey。列表圖的內容是前n個鍵作爲鍵,1個作爲每個鍵的值。我應該用什麼來代替列表圖?在spark中使用OrderedRDD函數
val l = (1 to 1000).toList
val d = ListMap(l.map(s=> s -> 1):_*)
val rdd = sc.parallelize(Seq(d))
rdd.collect()
val sorted = rdd.sortByKey()
sorted.collect()
工作!我正在使用一個ListMap,因爲我想確保鍵被排序,所以我對排序函數的輸入已經排序。我如何確保這個rdd在傳遞給排序函數時是有序的。 – user1745995
@user你爲什麼要分類排序的東西?不知道我跟着。 –
我想要隨機讀取和隨機寫入,因爲我希望數據在網絡中移動。但我不想花時間做一個實際的排序(實際上,我甚至不關心我的最終數據沒有排序)。據我所知,spark使用tim排序,它給出了排序數據的O(n)運行時間,所以我想確保我想要排序的數據是排序的。 – user1745995