我很困惑決定解決我的問題的技術和方法。如何選擇Hadoop工具以獲得更快的性能
我有5000個測試文件,其中包含從RDBMS生成的大約4TB的數據,並且需要大約4天的時間來準備所有5k文本文件。要解決此問題,我正在考慮將所有我5k文本文件數據導入到Hadoop系統中,以便從那裏可以更快地讀取數據,並以更快的速度生成文本文件。
我必須首次完成這項活動後,數據會增加,但每個月我必須生成5k文本文件。
通常我必須做全表掃描,並可能必須執行一些連接才能準備5個K文件。
任何人都可以請建議哪種工具,我應該考慮這種情況。 MapReduce和HBase或HIVE表或其他東西。
全表掃描,使用HIVE。 –