我是Hadoop的新手。請糾正我,如果我問廢話,並幫助我解決這個問題:)。Hadoop多節點羣集
我安裝並配置了一個兩節點hadoop集羣(紗線)。
- 主節點:2TB HDD,4GB RAM
- 從屬節點:500GB HDD,4GB RAM
的Datanode: 主節點僅(不保持複製的數據在從節點)
映射/減少: 主節點&從節點。
在10TB數據中,我上傳了2TB到主節點(數據節點)。我只使用從節點進行Map/Reduce(使用從節點的100%CPU來運行查詢)。
我的問題:
如果我添加一個新的2TB硬盤到主節點,我希望更多的上傳2TB到主節點,我該如何使用這兩種硬盤(舊硬盤和新的硬盤數據在主)?有沒有辦法在hdfs-site.xml中提供多個硬盤路徑?
我是否需要在從節點中添加4TB硬盤(使用主節點中的所有數據)才能使用從節點的100%CPU?或者從機可以從主機訪問數據並運行Map/Reduce作業?
如果我添加4TB到奴隸並上傳數據到hadoop。這將使主複製(複製)的任何複製?我可以訪問從站的主硬盤和主硬盤的主硬盤中的所有數據嗎?如果我這樣做,查詢是否使用兩個節點的100%CPU?
總的來說,如果我有10TB的數據。什麼是配置Hadoop兩節點羣集的正確方法?我應該使用什麼規範(對於master和datanode)來快速運行Hive查詢?
我被卡住了。我真的需要你的建議和幫助。
感謝提前一噸。