1
似乎它在Hadoop
(reference)支持,但我不知道如何使用它。hadoop:支持Map Reduce作業的多個輸出
我想:
a.) Map - Read a huge XML file and load the relevant data and pass on to reduce
b.) Reduce - write two .sql files for different tables
爲什麼我選擇的map/reduce是因爲我要爲居住在ondisk XML 100k(may be many more)
文件做到這一點。歡迎任何更好的建議
任何資源/教程解釋如何使用此讚賞。
我使用Python
和想學習如何做到這一點使用streaming
謝謝
那麼......你的問題是什麼?你可以說得更詳細點嗎? –
如何使用流式API爲地圖/縮減作業編寫多個輸出 – daydreamer