2017-08-31 35 views
1

我有150 TB的JSON文件存儲在我的個人windows驅動程序中。我將這些驅動程序移至Microsoft Azure存儲帳戶。我想把這個JSON數據放在卡夫卡上。從Kafka我想用Kafka-couch連接器推到Couchbase。什麼是最好的方法和程序? (記數據的保持複製)什麼是從Microsoft Azure中提取JSON文檔並將其推入Kafka的最佳方式?

天青--->卡夫卡---> Couchbase

或天青---> Couchbase。

或Windows驅動程序--->根據您的需求Couchbase

+0

這是要在Java中完成嗎?想知道爲什麼它被標記 – tima

回答

1

,我給你兩個選擇。

第一個選項,在其中創建自己的程序,以獲取來自Azure的Blob存儲數據和數據推送到Kafka.You可以使用WebJob在Azure的Web應用程序服務的運行。

此選項非常耗時,但成本更低。 你可以參考下面的代碼片段或通過從here通過Java推送數據到kafka的更多細節。

第二個選項,在其中您可以使用Azure的HDInsight服務,並按照official document通過語法來訪問存儲在Azure的Blob存儲數據: wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>

然後,請下載本siteHDFS (Sink)連接器從HDInsight推JSON數據卡夫卡。

該選項節省時間,但成本更高。

您也可以參考SO線程Kafka Connector for Azure Blob Storage並根據您的需要選擇兩個選項之一。

希望它可以幫助你。

相關問題