0
我想使用Java Spark根據它們的鍵比較兩個JavaPairRDD,比較它們的值以查看相同的鍵是否具有完全相同的值。如何通過鍵比較兩個JavaPairRDD並比較值?
現在,我只檢查交集和並集的計數(),但是這是不夠的,象下面這樣:
JavaPairRDD<String, String> intersectionJavaPairRDD = hBaseJavaPairRDD.intersection(hiveJavaPairRDD);
JavaPairRDD<String, String> unionJavaPairRDD = hBaseJavaPairRDD.union(hiveJavaPairRDD).distinct();
if (intersectionJavaPairRDD.count() != unionJavaPairRDD.count()
|| hiveJavaPairRDD.count() != hBaseJavaPairRDD.count()) {
System.err.println(
"ERROR: SxS validation failed...");
System.exit(-1);
}
我如何可以比較每個值,當他們有相同的密鑰?
非常感謝!
你可以使用combineByKey/AggregateByKey來比較值。 – Knight71