如何將數據流式傳輸到EMR羣集

我很欣賞有關如何將數據從本地Windows服務器傳輸到持久性EMR羣集的想法？如何將數據流式傳輸到EMR羣集

一些背景

我想跑得運行MR工作像字計數的例子可用持久集羣。我想將文本從本地Windows Server流式傳輸到羣集，並通過正在運行的作業進行處理。

我回顧的所有流式WordCount示例總是以S3中的靜態文本文件開始，並不包括如何實現任何內容以生成流。

這是否需要分兩部分對待？

先獲取數據到S3
流入EMR集羣？

我見過像Logstash這樣的工具，它們傾向於在本地服務器上運行代理，這會在Weblog日誌的末尾運行並傳輸它。你可能會說，我是一個Windows傢伙，擴展到EMR和Linux關聯中。隨時讓我知道是否有一些酷的命令行工具，已經這樣做。

在此先感謝。

來源

2013-12-18 Peter

你真的想要流式處理，還是想偶爾發送日誌文件？另外：羣集是持久的，但是Hadoop作業？ – bstempi

當前EMR as-only僅支持MR，Hive，Pig，HBase和Impala。 MR/Hive/Pig以面向批處理的方式處理數據，並且無法將數據流式傳輸給它們。雖然HBase是NoSQL DB，而Impala用於交互式即席查詢。

對於處理流數據，有許多其他選項，如Storm,Samza,S4。從AWS有Kinesis，最近已被遷移到GA。

來源

2013-12-18 21:30:43

是一個靜態文件將進入S3，然後成爲您的EMR集羣作業的輸入。但我相信你想要一個持久集羣的事實意味着你從Windows服務器繼續流式傳輸。是這樣嗎？如果需要，您需要創建一個AWS Kinesis Stream，通過調用Putrecord來配置將數據放入流的碎片的生產者。開始閱讀「Developing Record Consumer Applications」

來源

2013-12-31 15:54:34 SmarterKey

如何將數據流式傳輸到EMR羣集

回答

相關問題