使用火花流

2016-04-05 243 views 0 likes

我有文件的流，並且每個文件包含的關鍵組成線分離的線的鍵和值：例如值，一個文件將是這樣的：使用火花流

key1:value1 
key2:value2 
key3:value3

因此，我m使用Spark Streaming來檢測文件到達HDFS，我需要做的是將這些行的每個值放入HBase中（HBase的列由鍵組成）如果行的類型是「字符串「鍵與值分離會很容易，但我有一個DStream [字符串]，如果我申請DStream.flatmap（_。split（」：「））我會得到的話，我將無法要做：

val separated = String.split(":") 
val key = separated(0) 
val value = separated(1)

我嘗試使用.ToString將DStream轉換爲字符串，當我使用spark-submit執行腳本時出現錯誤「ArrayOutOfBoundException」。

來源

2016-04-05 Jean

回答

val rdd = sc.parallelize(Seq("key1:value1", "key2:value2")) 

rdd.map(_.split(":")).collect 
// Array[Array[String]] = Array(Array(key1, value1), Array(key2, value2)) 

rdd.map(_.split(":")(0)).collect 
// Array[String] = Array(key1, key2)

來源

2016-04-05 13:37:46

謝謝你的回答，但在我的情況下，該文件包含數百行的鍵值類型，不會使用collect使它太大而不易於操作？ – Jean

我只是向你展示'collect'的答案。把'collect'關掉 - 你有一個'RDD'結構化你想要的方式。 –

它的工作謝謝你 – Jean

相關問題

11. 火花流不工作
12. 「java.io.NotSerializableException：org.apache.spark.streaming.StreamingContext」當執行火花流
13. 火花流+卡桑德拉
14. 什麼是在火花流
15. 火花流整合水槽
16. 蟒蛇火花流輸出
17. jsontostructs在火花結構流
18. 學習火花流媒體
19. 火花流微配料
20. EMR和S3源火花流
21. 卡夫卡+火花流：kafka.common.OffsetOutOfRangeException
22. 火花：使用階
23. 使用UDF火花
24. 使用SQL火花
25. 試圖瞭解火花流流
26. 火花流功能通過異常火花提交時間
27. 火花提交失敗，火花流workdcount Python代碼
28. 火花采用火花CSV失敗
29. 火花2到火花1.6
30. 使用火花數據幀