2017-08-14 33 views
0

減少我有大MBOX文件,我可以分析使用郵箱API和轉儲到csv星火使用地圖在Python

import mailbox 
import csv 
mbox = mailbox.mbox("emailfile.mbox") 
for message in mbox: 
with open('mail.csv','w') as fp: 
    writer = csv.writer(fp,delimiter=',') 
    for message in mbox: 
     data = [ (message['Date'],message['From'], message['To'], message['subject']) ] 
     writer.writerows(data) 
     print data 

我怎樣才能做到這一點使用pySpark和地圖降低分析大量MBOX郵箱文件? 我無法確定如何將文件加載到rdd中,並以地圖縮減方式使用郵箱api。

任何想法?

回答