我們計劃使用REST API調用從端點接收數據並將數據存儲到HDFS。 REST調用以定期方式完成(每天或每小時)。建議基於Hadoop的設計/組件用於接收定期REST API調用
我已經使用Flume完成了Twitter的攝取,但我並不認爲使用Flume會適合我目前的用例,因爲我沒有在Twitter中使用像這樣的連續數據流水,而是使用離散的常規時間 - 綁定調用。
我現在的想法是使用自定義Java來處理REST API調用並保存到HDFS,然後在該Java jar上使用Oozie協調器。
我想聽聽有關設計和基於Hadoop的組件的建議/替代方案(如果比我現在想的更容易)。如果你覺得我可以堅持Flume,那麼請給我一個想法如何做到這一點。