2014-07-23 15 views
0

我正在Python中編寫hadoop流式應用程序以在EMR上運行。 EMR作業的輸入是S3存儲桶中的文件目錄,每個文件夾都是包含單個json對象的json文件。我想映射器在同一時刻每個JSON文件進行操作,一個,併產生一個(鍵,值)像這樣對:以很多json文件作爲輸入的亞馬遜EMR作業

地圖:

{「名稱」:「富」, '請求': '欄'} - >( '姓名',{ '請求': '巴'})

減少:

( '姓名',[{ '請求': 'bar'},{'request':'baz'}]) - > {'name':'foo','request':['bar','baz']}

似乎這是可行的,如果我想處理的所有json對象都被寫入一個文件中的一行,但事實並非如此;每個.json文件中都有多個換行符。是否有爲這種操作量身定製的輸入格式?請給我一些指導。謝謝!

回答