0
減少我有大MBOX文件,我可以分析使用郵箱API和轉儲到csv星火使用地圖在Python
import mailbox
import csv
mbox = mailbox.mbox("emailfile.mbox")
for message in mbox:
with open('mail.csv','w') as fp:
writer = csv.writer(fp,delimiter=',')
for message in mbox:
data = [ (message['Date'],message['From'], message['To'], message['subject']) ]
writer.writerows(data)
print data
我怎樣才能做到這一點使用pySpark和地圖降低分析大量MBOX郵箱文件? 我無法確定如何將文件加載到rdd中,並以地圖縮減方式使用郵箱api。
任何想法?