我有2個存儲在AWS S3中的製表符分隔的數據集。 我正在嘗試編寫一個EMR作業,它將基於一個公用密鑰(一組字段值)連接這兩個數據集。 我目前的版本填充2個列表並逐行比較它們;輸出具有公共密鑰的行。 我一直在Python中編寫,但似乎無法找出通過stdin帶來2個文件背後的邏輯,並將每個行與另一個進行比較,以便加入這兩個數據集。 我發現的大部分文檔都是用Java編寫的。 我正在使用亞馬遜的EMR來運行我的所有工作。 任何幫助,不勝感激。使用EMR加入數據集
謝謝
我有2個存儲在AWS S3中的製表符分隔的數據集。 我正在嘗試編寫一個EMR作業,它將基於一個公用密鑰(一組字段值)連接這兩個數據集。 我目前的版本填充2個列表並逐行比較它們;輸出具有公共密鑰的行。 我一直在Python中編寫,但似乎無法找出通過stdin帶來2個文件背後的邏輯,並將每個行與另一個進行比較,以便加入這兩個數據集。 我發現的大部分文檔都是用Java編寫的。 我正在使用亞馬遜的EMR來運行我的所有工作。 任何幫助,不勝感激。使用EMR加入數據集
謝謝
由於您已經在使用EMR,您有沒有看過Hive?
http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956
我很欣賞這個輸入。我實際上通過使用PIG和執行JOIN來解決這個問題。就這麼簡單! – Zihs 2013-06-18 19:53:37
你需要用Python語言編寫的代碼? – greedybuddha 2013-05-06 23:13:50
優選是。我目前正在尋找豬作爲替代品。 – Zihs 2013-05-07 12:56:51