我很欣賞有關如何將數據從本地Windows服務器傳輸到持久性EMR羣集的想法?如何將數據流式傳輸到EMR羣集
一些背景
我想跑得運行MR工作像字計數的例子可用持久集羣。我想將文本從本地Windows Server流式傳輸到羣集,並通過正在運行的作業進行處理。
我回顧的所有流式WordCount示例總是以S3中的靜態文本文件開始,並不包括如何實現任何內容以生成流。
這是否需要分兩部分對待?
- 先獲取數據到S3
- 流入EMR集羣?
我見過像Logstash這樣的工具,它們傾向於在本地服務器上運行代理,這會在Weblog日誌的末尾運行並傳輸它。你可能會說,我是一個Windows傢伙,擴展到EMR和Linux關聯中。隨時讓我知道是否有一些酷的命令行工具,已經這樣做。
在此先感謝。
你真的想要流式處理,還是想偶爾發送日誌文件?另外:羣集是持久的,但是Hadoop作業? – bstempi