2015-10-07 55 views
0

在PubMed數據源中,我需要將輸出推送到一個Kafka隊列中。每個源都可以被視爲一個Kafka主題。 (我知道Kafka中的概念並使用Python探索Kafka)將PubMed數據推送到Kafka

我能夠通過FireFTP查看PubMed數據。

任何人都可以幫助如何前進嗎?

回答

0

您將需要使用從FTP下載數據並將其假脫機至Kafka的服務。 Apache Flume正是如此。配置起來非常簡單。您可以使用FTP https://github.com/keedio/flume-ftp-source的客戶源,也可以使用cron作業將文件下載到假脫機目錄並讓flume從該處接收文件。 Flume有一個非常體面的卡夫卡水槽,允許連續寫卡芙卡。