我有一個形式爲DataSet>的元組數據集。我希望對String字段上的「整個」數據集進行排序,然後只獲取文件中的Long值。 Flink確實提供了排序分區功能,但這對我並不有幫助,因爲我需要對數據集進行完全排序。如何對Apache Flink中的數據集進行排序?
1
A
回答
5
您還可以使用sortPartition()
到完整DataSet
進行排序,如果你設置的並行性1
:
DataSet<Tuple2<String, Long>> data = ...
DataSet<Tuple2<String, Long>> sorted = data
.sortPartition(0, Order.ASCENDING).setParallelism(1); // sort in one partition
DataSet<Long> longs = sorted.map(new LongExtractor()); // map to extract long
+0
因此,如果並行性未設置爲1,那麼整個數據集將不會被完全排序?詳細地說,如果並行性設置爲2,那麼每個工作人員將對其數據進行排序,但跨分區不會有升序? –
+1
是的,沒錯。如果您在調用'sortPartition'之前對DataSet的Sort分區進行分區,則排序的分區將是不相交的分區。 –
相關問題
- 1. Powershell:對數據集進行排序
- 2. Apache Flink和事件排序
- 3. 如何對集合MongoDB中的對象數組進行排序?
- 4. 如何對數據幀進行排序
- 5. 如何對數據表進行排序
- 6. 如何對數據進行排序
- 7. Matlab如何對數據進行排序?
- 8. Rails - 如何對數據進行排序
- 9. 如何對數據集中的數據進行排序和選擇?
- 10. 如何對AngularFire集合進行排序?
- 11. Laravel如何根據數組索引對集合進行排序
- 12. 如何對數據庫中的數據進行排序?
- 13. 如何根據子集合屬性對集合進行排序
- 14. 如何在RichFaces中對數據表中的行進行排序?
- 15. 更復雜的排序:如何對數據進行分類並對類別中的數據進行排序? (Python)
- 16. 如何對Scala中有多列的數據集進行排名?
- 17. 阿帕奇flink數據集
- 18. Apache Flink Kafka集成
- 19. 如何使用排序集中的分數對列表進行排序
- 20. 如何根據行的相似性對數據幀進行排序和排序
- 21. 在Excel中對數據進行排序
- 22. 如何在GridView中對asp.net中的數據進行排序
- 23. 如何使用數組順序對此集合進行排序?
- 24. 如何使用jQuery對對象的數據集合進行排序
- 25. 如何對SAS中的數據集進行排序,以便記錄交錯?
- 26. Apache Flink:如何使用Flink DataSet API從一個數據集創建兩個數據集
- 27. 在大型數據集中對熊貓進行排序
- 28. 在asp.net中對數據集進行排序c#
- 29. 如何在Apache PIG中對日期進行排序?
- 30. 如何在sql中對字母數字數據進行排序..?
數據之前和之後的樣本?也許你迄今試過的代碼以及它失敗了嗎? –