0

我一直在嘗試使用kafka連接將數據流數據轉換爲HDFS,並在配置過程中與配置單元集成。與kafka連接的多個配置單元分區

我的用例要求我使用「FieldPartioner」作爲分區類。

我的問題是,我無法獲得多個分區。

例子:

我的例子JSON

{ 
    "_id": "582d666ff6e02edad83cae28", 
    "index": "ENAUT", 
    "mydate": "03-01-2016", 
    "hour": 120000, 
    "balance": "$2,705.80" 
} 

我想有 '指明MyDate' 和 '小時'

的基礎上,分區我嘗試以下

name=hdfs-sink 
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector 
tasks.max=1 
topics=fieldPartition_test_hdfs 
hdfs.url=hdfs://quickstart.cloudera:8020 
flush.size=3 

partitioner.class=io.confluent.connect.hdfs.partitioner.FieldPartitioner 
partition.field.name={mydate,hour} 

locale=en 
timezone=GMT 

hive.database=weblogs 
hive.integration=true 
hive.metastore.uris=thrift://quickstart.cloudera:9083 
schema.compatibility=BACKWARD 

也試過指定partition.field.name爲

partition.field.name={'mydate','hour'} 

partition.field.name=mydate,hour 

,還有更多這樣的組合

在這個問題上的任何幫助,將不勝感激

感謝。

回答

1

我儘可能地嘗試了這種方式,隨後開始深入研究源代碼。

FieldPartitoner的代碼是here

而最後提交到這裏的文件,顯示「恢復‘支持多分區字段’3個月前」

請不要讓我知道,如果你們有任何其他解決方案。