1

我知道spark內置的方法可以有分區和讀取大塊文件並使用textfile分配爲rdd。 但是,我正在閱讀這個自定義加密文件文件,其中火花不支持自然。我能想到的一種方法是改爲讀取inputstream並加載多行並分發給執行程序。繼續閱讀,直到所有文件被加載。所以沒有執行器會由於內存不足錯誤而炸燬。火花能做到這一點嗎?Spark將大文件讀入輸入流

回答

0

你可以嘗試lines.take(n)爲不同的n找到你的羣集的限制。

spark.readStream.option("sep", ";").csv("filepath.csv")