乘兩個PySpark

2017-03-19 610 views 0 likes

numpy的矩陣比方說，我有這兩個numpy的數組：乘兩個PySpark

A = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024) 
B = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024)

，我對其執行以下操作：

np.sum(np.dot(A, B))

現在，我希望能夠基本上使用PySpark使用相同的矩陣執行相同的計算，以便使用Spark集羣實現分佈式計算。

有誰知道或有樣本在PySpark中沿着這些線做了些什麼？

非常感謝您的幫助！

來源

2017-03-19 user2926603

似乎相關https：//開頭的實驗室。 yodas.com/large-scale-matrix-multiplication-with-pyspark-or-how-to-match-two-large-datasets-of-company-1be4b1b2871e#.u0khat9gy – kennytm

也許，但我很遺憾無法應用該解決方案對我的問題。它似乎使用不同的庫，是一個基於文字/文本的問題。 – user2926603

那麼你的矩陣密集還是稀疏？ A和B真的是1024×1024或更大？ – kennytm

回答

從這個post使用as_block_matrix方法，你可以做以下的（但見@kennytm的評論爲什麼這種方法可以爲更大的矩陣慢）：

import numpy as np 
from pyspark.mllib.linalg.distributed import RowMatrix 
A = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024) 
B = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024) 

from pyspark.mllib.linalg.distributed import * 

def as_block_matrix(rdd, rowsPerBlock=1024, colsPerBlock=1024): 
    return IndexedRowMatrix(
     rdd.zipWithIndex().map(lambda xi: IndexedRow(xi[1], xi[0])) 
    ).toBlockMatrix(rowsPerBlock, colsPerBlock) 

matrixA = as_block_matrix(sc.parallelize(A)) 
matrixB = as_block_matrix(sc.parallelize(B)) 
product = matrixA.multiply(matrixB)

來源

2017-03-20 16:51:33 Jaco

謝謝，效果很好！ – user2926603

相關問題

11. 乘以兩個多項式
12. 乘以兩個字段
13. 乘以兩個數據幀
14. T-SQL乘以兩個表
15. Python：乘兩個列表
16. 乘以兩個長號
17. 乘兩個浮體在SPIM
18. 乘以兩個屬性
19. 與LINQ兩個表乘兩列的sql
20. 如何在PySpark中壓縮兩個RDD？
21. 如何結合兩個DStreams（pyspark）？
22. 從兩列創建一個元組 - PySpark
23. Pyspark：兩個Date（演員TimestampType，則DateDiff）
24. PySpark：如何比較兩個數據幀
25. 乘兩個表先訂購一個表，然後乘以
26. 乘兩列的值
27. 乘以兩個長整數C
28. 自動乘法兩個列中的GridView
29. 乘以兩個JTextFields來顯示答案
30. Z3 Python乘以兩個位向量