2013-12-18 42 views
0

我很欣賞有關如何將數據從本地Windows服務器傳輸到持久性EMR羣集的想法?如何將數據流式傳輸到EMR羣集

一些背景

我想跑得運行MR工作像字計數的例子可用持久集羣。我想將文本從本地Windows Server流式傳輸到羣集,並通過正在運行的作業進行處理。

我回顧的所有流式WordCount示例總是以S3中的靜態文本文件開始,並不包括如何實現任何內容以生成流。

這是否需要分兩部分對待?

  1. 先獲取數據到S3
  2. 流入EMR集羣?

我見過像Logstash這樣的工具,它們傾向於在本地服務器上運行代理,這會在Weblog日誌的末尾運行並傳輸它。你可能會說,我是一個Windows傢伙,擴展到EMR和Linux關聯中。隨時讓我知道是否有一些酷的命令行工具,已經這樣做。

在此先感謝。

+0

你真的想要流式處理,還是想偶爾發送日誌文件?另外:羣集是持久的,但是Hadoop作業? – bstempi

回答

0

當前EMR as-only僅支持MR,Hive,Pig,HBase和Impala。 MR/Hive/Pig以面向批處理的方式處理數據,並且無法將數據流式傳輸給它們。雖然HBase是NoSQL DB,而Impala用於交互式即席查詢。

對於處理流數據,有許多其他選項,如Storm,Samza,S4。從AWS有Kinesis,最近已被遷移到GA。

0

是一個靜態文件將進入S3,然後成爲您的EMR集羣作業的輸入。 但我相信你想要一個持久集羣的事實意味着你從Windows服務器繼續流式傳輸。是這樣嗎? 如果需要,您需要創建一個AWS Kinesis Stream,通過調用Putrecord來配置將數據放入流的碎片的生產者。 開始閱讀「Developing Record Consumer Applications

相關問題