2013-05-06 35 views
0

我有2個存儲在AWS S3中的製表符分隔的數據集。 我正在嘗試編寫一個EMR作業,它將基於一個公用密鑰(一組字段值)連接這兩個數據集。 我目前的版本填充2個列表並逐行比較它們;輸出具有公共密鑰的行。 我一直在Python中編寫,但似乎無法找出通過stdin帶來2個文件背後的邏輯,並將每個行與另一個進行比較,以便加入這兩個數據集。 我發現的大部分文檔都是用Java編寫的。 我正在使用亞馬遜的EMR來運行我的所有工作。 任何幫助,不勝感激。使用EMR加入數據集

謝謝

+0

你需要用Python語言編寫的代碼? – greedybuddha 2013-05-06 23:13:50

+0

優選是。我目前正在尋找豬作爲替代品。 – Zihs 2013-05-07 12:56:51

回答