2017-06-26 99 views
0

我正在使用kafka和火花流在Python中編程的項目。我想從kafka製作者發送數據到我的流媒體節目。它的工作順利,當我執行下面的命令指定的依賴關係:Spark流和kafka集成

./spark-submit --packages org.apache.spark:火花流 - 卡夫卡0-8_2.11:2.1.0 ./kafkastreaming的.py

有什麼辦法,我可以指定依賴關係,並直接運行流碼(即不使用火花提交或使用火花提交,但不指定的依賴關係。)

我試圖指定spark的conf目錄中的spark-defaults.conf中的依賴關係。 指定的依賴關係是: 1.org.apache.spark:火花流式卡夫卡0-8_2.11:2.1.0 2.org.apache.spark:火花流-卡夫卡-0-8組裝2.1.1

注 - 我稱之爲火花從 https://spark.apache.org/docs/latest/streaming-programming-guide.html 流媒體使用netcat的引導和它的工作,而無需使用火花提交命令因此,我想知道如果我可以做同樣的卡夫卡和火花流。

回答

0

您提供額外的依賴到「罐子」的火花分佈文件夾中。停止並再次啓動火花。這樣一來,西港島線的依賴在運行時可以解決,而在命令行中

+0

嗨增加任何額外的選擇!我將依賴項「spark-streaming-kafka-0-8_2.11-2.1.0.jar」和「spark-streaming-kafka-0-8-assembly_2.10-2.1.1.jar」添加到「jars」文件夾沒有「--packages」選項時執行spark並執行spark-submit,它給出了一個錯誤,說它找不到這些依賴關係。 – Akhilesh

相關問題