我有一個RDD,大約有7M條目,每個條目有10個規範化座標。我也有一些中心,我試圖將每個條目映射到最近的(歐幾里德距離)中心。問題是這隻會產生一個任務,這意味着它不是並行化的。這是形式: def doSomething(point,centers):
for center in centers.value:
if(distance(point,center)<1):
我剛開星火的竅門,我有一個需要被映射到一個rdd功能,但使用全球字典來RDD: from pyspark import SparkContext
sc = SparkContext('local[*]', 'pyspark')
my_dict = {"a": 1, "b": 2, "c": 3, "d": 4} # at no point will be modified
my_list