我有兩個數據集 數據集1: id a b c d
1 0.3 0.1 0.2 0.2
2 0.2 0.3 0.3 0.4
3 0.2 0.4 0.7 0.7
....
dataset2 id x
1 8
2 4
3 10
....
我願做一個操作,使用數據集2中的「x」列乘以數據集1中的每列,敵人每個ID,以便期望的輸出是: id a b c d
1 2.4 0.8
我們需要在spark中計算大量數據集合中的距離矩陣,如jaccard。 面對幾個問題。請幫助我們提供指導。 1期 import info.debatty.java.stringsimilarity.Jaccard;
//sample Data set creation
List<Row> data = Arrays.asList(
RowFactory.crea