2013-08-06 35 views
0

我正在一個項目上工作,我將實時累積數據。我想定期從我的本地機器上傳數據到HDFS。這裏的頻率將會持續幾個小時。在HDFS上傳數據定期

我的想法是安排一個批處理文件在2小時後定期運行。

回答

2

您有幾種選擇:

  • 使用cron作業。
  • 如果你想讓這個更復雜,你可以使用Apache Oozie來安排你的工作。
  • 如果您希望以分佈式,可靠和容錯的方式完成此任務,則可以使用Apache Flume。使用Flume,您甚至可以直接從數據源編寫自定義流量源來收集數據,而無需首先將數據聚合到本地FS,然後將其移至HDFS。