0
我開始自己學習Spark,所以我的問題可能非常愚蠢。PySpark:在循環內打印到終端
不管怎麼說,我正在通過星火安裝(鏈接:https://github.com/apache/spark/blob/master/examples/src/main/python/kmeans.py)提供了一個示例
我要修改一點點的代碼,因爲我需要更好地瞭解地圖,減少操作。
我試圖做的是:
while tempDist > convergeDist:
print('Here \n')
closest = data.map(
lambda p: (closestPoint(p, kPoints), (p, 1)))
print(closest)
pointStats = closest.reduceByKey(
lambda p1_c1, p2_c2: (p1_c1[0] + p2_c2[0], p1_c1[1] + p2_c2[1]))
print(pointStats)
newPoints = pointStats.map(
lambda st: (st[0], st[1][0]/st[1][1])).collect()
然而,隨着該命令而執行腳本
spark-submit kmeans.py
當沒有上面打印的實際打印雖然不是後來
print("Final centers: " + str(kPoints))
實際上打印到終端。
有人可以幫我理解爲什麼嗎?