emr

13熱度

2回答

S3上有一個17.7GB的文件。它是作爲Hive查詢的輸出生成的，並未壓縮。我知道，通過壓縮它，它將是大約2.2GB（gzip）。當傳輸是瓶頸（250kB/s）時，如何儘可能快地在本地下載此文件。我還沒有找到任何直接的方法來壓縮S3上的文件，或者在s3cmd，boto或相關工具中啓用壓縮傳輸。

5熱度

2回答

將快速壓縮的文件加載到Elastic MapReduce中

我在S3中有一堆精簡壓縮的服務器日誌，我需要在Elastic MapReduce上使用流處理它們。我如何告訴Amazon和Hadoop這些日誌已經被壓縮（在它們被拉入HFS之前！），以便它們可以在發送到流式映射器腳本之前被解壓縮？我能找到的唯一文檔是http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopDa

0熱度

1回答

不正確或不完整讀取發送到Mapper類中映射方法的值

我有一個由3個步驟組成的作業。我的輸入是存儲在Amazon S3中的加密JSON對象（每行一個）。（S3E：//）。工作參數： job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); job.setOutputKeyClass(Text.class

0熱度

1回答

使用python腳本作爲使用配置單元的還原器加載映射數據類型

在其中一列Hive表中，我想要存儲鍵值對。 Hive的複雜數據類型映射支持該構造。（這只是我希望能夠做的，我有許多我要壓縮這樣的多列的玩具爲例）所以我創建這樣一個表： hive>DESCRIBE transaction_detailed; OK id STRING time STRING Time taken: 0.181 seconds hive>DROP TABLE IF E

0熱度

1回答

OpenEMR和HL7

我對EMR和HL7非常陌生。我有Joomla CMS和OpenEMR的單獨安裝。我需要我的JoomlaCMS發送HL7消息給OpenEMR，並通過互聯網接收HL7的響應。我不知道從哪裏開始，有沒有辦法做到這一點。我的其他問題：是否有任何接收和發送HL7消息的在線EMR服務？ PHP可以創建和解析HL7消息嗎？因爲我看到https://github.com/pear/Net_HL7只能創建

4熱度

2回答

Elastic MapReduce的後掛鉤

我想知道EMR（Elastic MapReduce）的後置處理是否有一個例子？我試圖實現的是在亞馬遜的Hadoop完成工作後立即發送電子郵件給一羣人。

1熱度

2回答

彈性地圖縮小：繼續出錯？

我們使用彈性的Map Reduce相當廣泛，並與它正在處理越來越多的數據。有時我們的工作失敗，因爲數據格式不正確。我們不斷修改我們的地圖腳本以處理各種異常情況，但有時仍會有一些格式錯誤的數據管理我們的腳本。即使某些map或reduce作業失敗，是否可以將Elastic Map Reduce指定爲「繼續出錯」？至少，是否有可能增加整個集羣失敗的失敗任務的最小數量（有時，我們在500個左右的任務中

1熱度

1回答

亞馬遜EMR如何找出工作完成的時間？

我正在使用Amazon Elastic MapReduce Ruby（http://aws.amazon.com/developertools/2264）來運行我的配置單元作業。有沒有辦法知道工作何時完成？現在我所能想到的就是使用「--list --active」繼續運行emrclient，但我希望有更好的方法來做到這一點。謝謝

0熱度

1回答

Hive多個子查詢和組由

我正在將統計數據從MySQL切換到Amazon DynamoDB和Elastic MapReduce。我有查詢波紋管與MySQL的工作，我有蜂巢上的同一個表，並需要在MySQL（last_week，last_month和last_year的產品視圖）相同的結果。 SELECT product_id, SELECT COUNT(product_id) from dev_product_views

0熱度

1回答

如何處理EMR_FORCEUFIMAPPING和EMR_GDICOMMENT？

我將EMF轉換爲PDF，但我進入了一個有問題的領域。我有一些EMF假脫機文件，其中包含一些未公開的EMR結構，如EMR_FORCEUFIMAPPING和EMR_GDICOMMENT。 MSDN對這些記錄沒有太多描述，所以搜索這些關鍵字並不能幫助我找到答案。據我所知，這些記錄可以幫助我將字體嵌入到生成的PDF中。有沒有人有這方面的經驗？你能推薦我一些書籍或教程或源代碼庫或一些例子，如何處理這些記錄