因此,我正在開發一個預計可以處理大量數據的應用程序,因此我決定使用Hadoop來處理它。何時將數據移動到HDFS/Hive?
我的服務節點和datanodes與webapp分開,所以我使用HttpFS與Hadoop通信應用程序。
因此,無論何時在我的應用程序中生成一個新的行數據,我是否應該已經調用相應的HttpFS URL來將數據追加到HDFS文件?我應該將這些數據寫入網絡服務器的文件中,並且每隔一小時使用cronjob將其上傳到HDFS? 我是否應該更新Hive表,還是隻需在需要查詢時就將數據加載到那裏?
我對Hadoop很新,所以任何可能有用的鏈接都會有用。
謝謝!這非常有用。你能解釋一下如何配置oozie這個4步過程嗎?我發現它與所有的配置文件和東西有點混淆 – Ivan
我正在學習和練習hadoop的權威指南,逐章。掌握oozie可能需要1或2周的時間 –