2016-08-10 44 views
0

我需要存儲的信息推到卡夫卡在深存儲。我們正在使用Azure雲服務,因此我認爲Azure Blob存儲可能是更好的選擇。我想使用Kafka Connect的sink connector API將數據推送到Azure Blob。卡夫卡文檔大多建議HDFS導出數據,但在這種情況下,我需要一臺運行Hadoop的Linux虛擬機,我猜這會很昂貴。我的問題是Azure Blob存儲是存儲JSON對象和構建自定義接收器連接器的合適選擇,對於這種情況是一個合理的解決方案?卡夫卡連接器Azure的Blob存儲

+0

對於自定義接收,我想想吧'好的。目前,Azure Blob存儲沒有官方接收器。如果想要另一個解決方案,可以與Apache水槽(卡夫卡源和Azure的水槽)試試,看到這個鏈接以供參考:https://blogs.msdn.microsoft.com/bigdatasupport/2014/03/18/using-apache-水槽與 - hdinsight / – NangSaigon

回答

2

定製信宿連接肯定能行。卡夫卡連接是絕對的設計,所以你可以插入連接器。事實上,連接器開發是完全聯合的。 Confluent的JDBC和HDFS連接器由於這兩種用例的普及而首先實現,但還有很多(我們保留着一個我們知道的連接器列表here

就Azure blob存儲是適當的,你提到的JSON對象。我想你需要考慮的唯一事情就是物體的大小和Azure存儲能否處理大小&數量的對象很好,我不知道Azure存儲的特點,但在很多其他對象的存儲系統可能需要許多對象合併爲一個斑點,以獲得良好的表現,適合於大量的對象(即你可能需要支持許多JSON對象的文件格式)。