與kafka連接的多個配置單元分區

我一直在嘗試使用kafka連接將數據流數據轉換爲HDFS，並在配置過程中與配置單元集成。與kafka連接的多個配置單元分區

我的用例要求我使用「FieldPartioner」作爲分區類。

我的問題是，我無法獲得多個分區。

例子：

我的例子JSON

{ 
    "_id": "582d666ff6e02edad83cae28", 
    "index": "ENAUT", 
    "mydate": "03-01-2016", 
    "hour": 120000, 
    "balance": "$2,705.80" 
}

我想有 '指明MyDate' 和 '小時'

的基礎上，分區我嘗試以下

name=hdfs-sink 
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector 
tasks.max=1 
topics=fieldPartition_test_hdfs 
hdfs.url=hdfs://quickstart.cloudera:8020 
flush.size=3 

partitioner.class=io.confluent.connect.hdfs.partitioner.FieldPartitioner 
partition.field.name={mydate,hour} 

locale=en 
timezone=GMT 

hive.database=weblogs 
hive.integration=true 
hive.metastore.uris=thrift://quickstart.cloudera:9083 
schema.compatibility=BACKWARD

也試過指定partition.field.name爲

partition.field.name={'mydate','hour'}

和

partition.field.name=mydate,hour

，還有更多這樣的組合

在這個問題上的任何幫助，將不勝感激

感謝。

來源

2016-11-18 Khal Drogo

我儘可能地嘗試了這種方式，隨後開始深入研究源代碼。

FieldPartitoner的代碼是here！

而最後提交到這裏的文件，顯示「恢復‘支持多分區字段’3個月前」

請不要讓我知道，如果你們有任何其他解決方案。

來源

2016-11-18 11:35:41

與kafka連接的多個配置單元分區

回答

相關問題