camus

1熱度

1回答

我們已經成功運行加繆一年左右，成功地從卡夫卡（版本0.82）中提取avro有效載荷，並將其作爲.avro文件存儲在HDFS中，只需使用幾個卡夫卡話題。最近，我們公司內的一個新團隊在預生產環境中註冊了約60個新主題，並開始向這些主題發送數據。該團隊在將數據路由到kafka主題時犯了一些錯誤，當Camus將這些有效載荷反序列化爲這些主題時，會導致錯誤。由於超過了「失敗的其他」錯誤閾值，加繆作業失敗。

0熱度

1回答

爲加繆工作設置frequecy

我剛剛開始與加繆。我計劃每隔一小時運行一次camus工作。我們每小時收到80000000條消息（平均大小約爲4KB）。如何設置以下屬性： # max historical time that will be pulled from each partition based on event timestamp kafka.max.pull.hrs=1 # events with a time

0熱度

2回答

如何決定camus的mappers的數量？

我剛開始與加繆。我打算每隔1小時運行一次加繆。我們每小時左右~消息，平均消息大小爲4KB（我們在卡夫卡有一個單獨的主題）。我第一次嘗試使用10映射器，複製一小時的數據需要花費大約2小時，並創建了大小約爲7GB的10個文件。然後我試圖300映射器，它把時間降到〜1小時。但它創建了11個文件。後來，我用150 mappers試了一下，花了大約30分鐘。那麼，我該如何選擇映射器的數量呢？另外，我

0熱度

1回答

Gobblin Map-reduce作業在EMR上成功運行，但s3中沒有輸出

我正在運行gobblin，使用3節點EMR集羣將數據從kafka移動到s3。我在hadoop 2.6.0上運行，並且我還針對2.6.0構建了gobblin。看起來好像map-reduce作業成功運行。在我的hdfs我看到指標和工作目錄。指標有一些文件，但工作目錄爲空。 S3存儲桶應該有最終的輸出，但沒有數據。並在最後它說輸出任務狀態路徑/ gooblinOutput /工作/ GobblinK

-1熱度

1回答

camus or gobblin which is preferred

您能否幫我設置camus或gobblin來存儲來自Kafka的HDFS消息。一個實例可能很棒。 Gobblin仍處於孵化階段，camus已逐步淘汰。所以最好使用哪一個。我下載gobblin跑gobblin-standalone.sh的開始，但我得到的錯誤環境變量GOBBLIN_JOB_CONFIG_DIR沒有設置！。

0熱度

1回答

如何在使用Hadoop時解決NoClassDefFoundError？

我越來越 Exception in thread "main" java.lang.NoClassDefFoundError: com/linkedin/camus/etl/IEtlKey. 在運行命令： hadoop jar camus-etl-kafka-0.1.0-SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob -P camus.pro