camus

    1熱度

    1回答

    我們已經成功運行加繆一年左右,成功地從卡夫卡(版本0.82)中提取avro有效載荷,並將其作爲.avro文件存儲在HDFS中,只需使用幾個卡夫卡話題。最近,我們公司內的一個新團隊在預生產環境中註冊了約60個新主題,並開始向這些主題發送數據。該團隊在將數據路由到kafka主題時犯了一些錯誤,當Camus將這些有效載荷反序列化爲這些主題時,會導致錯誤。 由於超過了「失敗的其他」錯誤閾值,加繆作業失敗。

    0熱度

    1回答

    我剛剛開始與加繆。我計劃每隔一小時運行一次camus工作。我們每小時收到80000000條消息(平均大小約爲4KB)。 如何設置以下屬性: # max historical time that will be pulled from each partition based on event timestamp kafka.max.pull.hrs=1 # events with a time

    0熱度

    2回答

    我剛開始與加繆。 我打算每隔1小時運行一次加繆。我們每小時左右~消息,平均消息大小爲4KB(我們在卡夫卡有一個單獨的主題)。 我第一次嘗試使用10映射器,複製一小時的數據需要花費大約2小時,並創建了大小約爲7GB的10個文件。 然後我試圖300映射器,它把時間降到〜1小時。但它創建了11個文件。後來,我用150 mappers試了一下,花了大約30分鐘。 那麼,我該如何選擇映射器的數量呢?另外,我

    0熱度

    1回答

    我正在運行gobblin,使用3節點EMR集羣將數據從kafka移動到s3。我在hadoop 2.6.0上運行,並且我還針對2.6.0構建了gobblin。 看起來好像map-reduce作業成功運行。在我的hdfs我看到指標和工作目錄。指標有一些文件,但工作目錄爲空。 S3存儲桶應該有最終的輸出,但沒有數據。並在最後它說 輸出任務狀態路徑/ gooblinOutput /工作/ GobblinK

    -1熱度

    1回答

    您能否幫我設置camus或gobblin來存儲來自Kafka的HDFS消息。一個實例可能很棒。 Gobblin仍處於孵化階段,camus已逐步淘汰。所以最好使用哪一個。 我下載gobblin跑gobblin-standalone.sh的開始,但我得到的錯誤 環境變量GOBBLIN_JOB_CONFIG_DIR沒有設置! 。

    0熱度

    1回答

    我越來越 Exception in thread "main" java.lang.NoClassDefFoundError: com/linkedin/camus/etl/IEtlKey. 在運行命令: hadoop jar camus-etl-kafka-0.1.0-SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob -P camus.pro