我想使用的功能columnSimilarities(),computeColumnSummaryStatistics()無法訪問RowMatrix方法PySpark:columnSimilarities(),computeColumnSummaryStatistics()
- 尤其是在這個帖子中提到的columnSimilarities()函數:
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
我使用從MLIB稀疏向量的列表。
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
我得到的錯誤:
AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'
或
AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'
每次我運行的功能。
這是PySpark的問題,而不是Scala Spark?我也無法通過谷歌搜索找到RowMatrix功能的頁面。
謝謝
好的,謝謝。我沒有從源代碼構建。 – user1340048
這種方法只適用於IndexedRowMatrix嗎?或者也可用於RowMatrix? – user1340048
只有'IndexedRowMatrix',但它不應該很難讓這個代碼在'RowMatrix'上工作。 – zero323