1
我們有很多日誌,我們希望通過一些處理獲取有意義的數據。這些日誌文件非常龐大,結果也很大。pyspark rdd有沒有分頁?
我們已經建立了火花轉換來完成spark集羣中所需的工作。 經過所有不適合驅動程序內存的轉換後,我有大量數據。因此,做一個rdd.collect()失敗。
是否有任何分頁在rdd中我們可以使用哪種動作? 有些東西像SQL中的限制。「SELECT * FROM table LIMIT 15,10」
或任何建議如何處理這種情況?
如果結果如此之大,我只會將它寫入磁盤,最簡單的一個csv文件(只是谷歌它)。但也許我錯過了一些東西。乾杯。 – lrnzcig