emr

    13熱度

    2回答

    S3上有一個17.7GB的文件。它是作爲Hive查詢的輸出生成的,並未壓縮。 我知道,通過壓縮它,它將是大約2.2GB(gzip)。當傳輸是瓶頸(250kB/s)時,如何儘可能快地在本地下載此文件。 我還沒有找到任何直接的方法來壓縮S3上的文件,或者在s3cmd,boto或相關工具中啓用壓縮傳輸。

    5熱度

    2回答

    我在S3中有一堆精簡壓縮的服務器日誌,我需要在Elastic MapReduce上使用流處理它們。我如何告訴Amazon和Hadoop這些日誌已經被壓縮(在它們被拉入HFS之前!),以便它們可以在發送到流式映射器腳本之前被解壓縮? 我能找到的唯一文檔是http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopDa

    0熱度

    1回答

    我有一個由3個步驟組成的作業。我的輸入是存儲在Amazon S3中的加密J​​SON對象(每行一個)。 (S3E://)。 工作參數: job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); job.setOutputKeyClass(Text.class

    0熱度

    1回答

    在其中一列Hive表中,我想要存儲鍵值對。 Hive的複雜數據類型映射支持該構造。 (這只是我希望能夠做的,我有許多 我要壓縮這樣的多列的玩具爲例) 所以我創建這樣一個表: hive>DESCRIBE transaction_detailed; OK id STRING time STRING Time taken: 0.181 seconds hive>DROP TABLE IF E

    0熱度

    1回答

    我對EMR和HL7非常陌生。 我有Joomla CMS和OpenEMR的單獨安裝。我需要我的JoomlaCMS發送HL7消息給OpenEMR,並通過互聯網接收HL7的響應。 我不知道從哪裏開始,有沒有辦法做到這一點。 我的其他問題: 是否有任何接收和發送HL7消息的在線EMR服務? PHP可以創建和解析HL7消息嗎? 因爲我看到https://github.com/pear/Net_HL7只能創建

    4熱度

    2回答

    我想知道EMR(Elastic MapReduce)的後置處理是否有一個例子?我試圖實現的是在亞馬遜的Hadoop完成工作後立即發送電子郵件給一羣人。

    1熱度

    2回答

    我們使用彈性的Map Reduce相當廣泛,並與它正在處理越來越多的數據。有時我們的工作失敗,因爲數據格式不正確。我們不斷修改我們的地圖腳本以處理各種異常情況,但有時仍會有一些格式錯誤的數據管理我們的腳本。 即使某些map或reduce作業失敗,是否可以將Elastic Map Reduce指定爲「繼續出錯」? 至少,是否有可能增加整個集羣失敗的失敗任務的最小數量(有時,我們在500個左右的任務中

    1熱度

    1回答

    我正在使用Amazon Elastic MapReduce Ruby(http://aws.amazon.com/developertools/2264)來運行我的配置單元作業。有沒有辦法知道工作何時完成?現在我所能想到的就是使用「--list --active」繼續運行emrclient,但我希望有更好的方法來做到這一點。 謝謝

    0熱度

    1回答

    我正在將統計數據從MySQL切換到Amazon DynamoDB和Elastic MapReduce。 我有查詢波紋管與MySQL的工作,我有蜂巢上的同一個表,並需要在MySQL(last_week,last_month和last_year的產品視圖)相同的結果。 SELECT product_id, SELECT COUNT(product_id) from dev_product_views

    0熱度

    1回答

    我將EMF轉換爲PDF,但我進入了一個有問題的領域。我有一些EMF假脫機文件,其中包含一些未公開的EMR結構,如EMR_FORCEUFIMAPPING和EMR_GDICOMMENT。 MSDN對這些記錄沒有太多描述,所以搜索這些關鍵字並不能幫助我找到答案。據我所知,這些記錄可以幫助我將字體嵌入到生成的PDF中。有沒有人有這方面的經驗?你能推薦我一些書籍或教程或源代碼庫或一些例子, 如何處理這些記錄