0
我需要執行以下操作:選擇rdd中的每個字段。 我將其轉換Scala中,expecially部件在第三行,選擇每一列:選擇列RDD scala-spark
val rddHash=x.map(row =>(DigestUtils.sha1Hex(row(0).toString.getBytes("UTF-8")),row(1).toString)).reduceByKey((a,b)=>(a+b))
val z=rddHash.cartesian(rddHash)
val outRdd=z.map(m => (m(0)(0),(m(1)(0),euclidean(m(0)(1).split(','),m(1)(1).split(',')))))
X是帶電爲(字符串,Object)將數據集。
但是這段代碼不起作用,問題是與我試圖通過m(0)(0),m(1)(0)等選擇元素的第三行有關的部分。 錯誤是:
<console>:42: error: ((String, String), (String, String)) does not take parameters
如何選擇在斯卡拉RDD每場?
詩在pyspark我的代碼行是以下之一:
outRdd=cartesian.map(lambda m: (m[0][0],(m[1][0],euclidean(m[0][1].split(','),m[1][1].split(',')))))
當笛卡爾具有相同的struucture顯示之前:您不能直接調用m(index)
在斯卡拉元組
((String, String), (String, String))