2015-09-24 140 views
8

我有一個RDD,我正在通過加載一個文本文件並對其進行預處理來創建。我不想收集它並將其保存到磁盤或內存(整個數據),而是想要將它傳遞給python中的其他函數,這些函數一個接一個地消耗數據。將RDD轉換爲可迭代:PySpark?

這怎麼可能?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

回答