0
我有一個情況,文本分隔文件每隔30分鐘從不同的服務器(大約10個)到達hadoop系統。處理hadoop python中的多個文件
每個文件有大約250萬條記錄,可能不會在同一時間到達,我正在尋找一種方法,可以每30分鐘處理一次這些文件。
我的問題是:
- 如何處理在不同時間到達的文件嗎?
- 我想要將數據彙總到10個文件中。是否應該將這些大文件合併或分開處理?
我想這個解決方案在python中實現,但在hadoop中使用任何工具/技術的解決方案將不勝感激。
你可以看看Apache Oozie。它能夠根據數據可用性發出火花動作/作業。 – Pushkr