我有堆列表中的鍵,值對列表((A,1),(B,2),(C,3))在堆內存中。我如何將這個列表並行化來創建一個JavaPairRDD? Scala中: VAL對= sc.parallelize(列表((A,1),(B,2),(C,3)) 同樣,是否有任何方式與Java API如何在Apache Spark Java API中將鍵值對列表並行化爲JavaPairRDD?
回答
我找到了答案。第一店JavaRDD中的元組列表,然後將其轉換爲JavaPairRDD。
List<Tuple2> data = Arrays.asList(new Tuple2("panda", 0),new Tuple2("panda", 1));
JavaRDD rdd = sc.parallelize(data);
JavaPairRDD pairRdd = JavaPairRDD.fromJavaRDD(rdd);
看一看這個answer
並行化集合?通過調用現有的集合JavaSparkContext的並行化方法在你的驅動程序中創建的。集合的元素被複制,從而形成可並行操作的分佈式數據集。
List data = ......;
JavaRDD rdd = sc.parallelize(data);
通過使用上述行,您只能存儲不是鍵值對的元素。而且我正嘗試創建JavaPairRDD而不是JavaRDD –
雖然此代碼可能會回答問題,但提供 關於_why_和/或_how_的其他上下文會回答這個問題將顯着提高其長期值 。請[編輯]你的答案,添加一些解釋。 –
@SandeepVeerlapati如果你的列表類型是元組,我認爲spark會創建pairedRDD – banjara
Convert Tuple into List with below code snippet.
Tuple2<Sensor, Integer> tuple = new Tuple2<Sensor, Integer>(arg0._2, 1);
List<Tuple2<Sensor, Integer>> list = new ArrayList<Tuple2<Sensor, Integer>>();
list.add(tuple);
,我可以看到我
sc.parallelizePairs(Arrays.asList(new Tuple2("123","123")));
- 1. 如何在apache spark中執行排序JavaPairRDD
- 2. Apache Spark - 如何計算配對RDD中的相似鍵/值對
- 3. 在Apache Spark中top()不能用JavaPairRDD運行
- 4. Spark JavaPairRDD迭代
- 5. 如何通過鍵比較兩個JavaPairRDD並比較值?
- 6. 如何在Java中序列化apache spark的MatrixFactorizationModel
- 7. 將鍵/值對列表序列化爲XML
- 8. 如何基於spark在java中的值對列表進行排序?
- 9. Apache Spark - 解析數據並將列轉換爲行
- 10. 如何合併2列表作爲python中的鍵值對
- 11. 如何擴展apache spark api?
- 12. 如何並行化列表迭代並能夠在Spark中創建RDD?
- 13. 如何在JPA(Java持久性API)中將數據庫行並行化爲Java對象轉換?
- 14. 如何在Spark中按分區對鍵/值進行分組?
- 15. 如何使用Spark java API將JavaRDD存儲爲序列文件?
- 16. 將XML中的鍵值對反序列化爲c#對象
- 17. 如何在列中分組行值並將行轉換爲列?
- 18. 在apache的火花JavaPairRDD
- 19. 如何將一般對象序列化爲Json並將Json反序列化爲Java中的對象
- 20. 使用BeanUtils序列化爲鍵/值對
- 21. 如何在java中序列化/反序列化對象列表?
- 22. 如何在Spark中將多個列合併爲一個向量值列?
- 23. 如何在apache spark中執行詞幹?
- 24. Scala apache spark cassandra表列表
- 25. 定製並行apache spark
- 26. Apache Spark如何將新列從列表/數組添加到Spark數據框
- 27. java apache spark mllib
- 28. 與Cassandra行爲的Apache Spark
- 29. 如何正確使用Java Spark在Apache Spark中製作TF-IDF語句向量?
- 30. 如何在Java Spark的Apache Spark中無參數地註冊UDF
這個工作它是否發生,你RFTM? – eliasah
我參考了手冊。我知道如何用scala和python來完成它。有沒有辦法用java做它? –