我對Scala和Spark非常陌生,我無法從評級文件創建相關矩陣。它與this question類似,但是我有矩陣形式的稀疏數據。我的數據是這樣的:評分文件中的Spark - 相關矩陣
<user-id>, <rating-for-movie-1-or-null>, ... <rating-for-movie-n-or-null>
123, , , 3, , 4.5
456, 1, 2, 3, , 4
...
是最有前途的,到目前爲止看起來像這樣的代碼:
val corTest = sc.textFile("data/collab_filter_data.txt").map(_.split(","))
Statistics.corr(corTest, "pearson")
(我知道user_ids中有缺陷,但我願意與此同時生活)
我期待輸出像:
1, .123, .345
.123, 1, .454
.345, .454, 1
這是一個矩陣,顯示每個用戶如何與每個其他用戶關聯。在圖形上,這將是一個相關圖。
這是一個完全noob問題,但我一直與它鬥爭了幾個小時,似乎無法谷歌我的出路。
可以容易地去除第一元件,包含的用戶ID的一個,與'_.split(「」)降( 1)' – Paul