有沒有任何函數或方法可以計算給定數據集的相異矩陣?我發現All-pairs similarity via DIMSUM,但它看起來只適用於稀疏數據。我的確很密集。即使original DIMSUM paper如何計算Spark中的相異矩陣?
0
A
回答
1
在談論的基質,其中:
每個維度是稀疏以每行至多L個非零元素
並且其值是:
的A的條目已被縮放爲[-1,1]
這不是必需條件,您可以在密集的矩陣上運行它。實際上,如果你用點心筆者從the databricks blog檢查示例代碼,你會發現,RowMatrix
是從密集的矢量的RDD
創建事實:
同樣在CosineSimilarity
Spark example評論給出作爲輸入的密集矩陣這不是縮放的。
您需要注意的是,唯一可用的方法是columnSimilarities()
,它計算列之間的相似性。因此,如果您的輸入數據文件以record = row的方式構造,那麼您必須先進行矩陣轉置,然後運行相似性。要回答你的問題,不要在RowMatrix
上沒有transpose
,MLlib中的其他類型的矩陣確實有這個功能,所以你必須先做一些轉換。
Row similarity is in the works不幸的是,它並沒有成爲最新的Spark 1.5。
至於其他選項,你必須自己實現它們。需要O(mL^2)
洗牌的幼稚強力解決方案非常容易實現(笛卡爾+您的選擇類似度量),但表現非常糟糕(從經驗來講)。
你也可以看看一個叫做DISCO的同一個人的不同算法,但是它沒有在Spark中實現(並且該論文也假定了L稀疏性)。
最後請注意,DIMSUM和DISCO都是估計值(儘管非常好)。
相關問題
- 1. python中的矩陣相關計算
- 2. python - 如何在數據矩陣中計算nans的相關矩陣
- 3. 矩陣計算
- 4. 矩陣計算
- 5. 計算矩陣
- 6. 如何從相機固有矩陣計算相機的視野?
- 7. 優化相關矩陣的計算
- 8. 計算稀疏矩陣的相似度
- 9. 計算矩陣的相關性
- 10. 矩陣R中計算矩陣
- 11. 如何計算matlab中的相關矩陣
- 12. R中的計算矩陣
- 13. 計算矩陣的相關矩陣與應用
- 14. 如何用TensorFlow計算矩陣運算?
- 15. MATLAB計算INV錯誤(奇異矩陣)
- 16. 分佈式互相關矩陣計算
- 17. 計算一個3d相機矩陣
- 18. 在OpenCV中的矩形矩陣計算
- 19. 轉置矩陣與計算逆矩陣的計算強度
- 20. Matlab:如何計算矩陣的逆
- 21. 如何計算矩陣的總和?
- 22. CSS矩陣計算
- 23. 矩陣計算MATLAB
- 24. 計算在矩陣
- 25. 如何使用JAMA(Java矩陣包)計算矩陣的僞逆矩陣?
- 26. CUDA中非矩形矩陣的計算機逆矩陣
- 27. XML值的矩陣計算
- 28. 計算矩陣的質心
- 29. 如何用Ilnumerics矩陣計算Kronecker和?
- 30. 格里塔 - 如何計算矩陣