我想用pyspark解決以下問題。 我有一個hdfs格式的文件,它是查找表的轉儲。在pyspark中創建一個大字典
key1, value1
key2, value2
...
我想加載到python字典中的pyspark並將其用於其他目的。所以我試圖做到:
table = {}
def populateDict(line):
(k,v) = line.split(",", 1)
table[k] = v
kvfile = sc.textFile("pathtofile")
kvfile.foreach(populateDict)
我發現表變量沒有被修改。那麼,有沒有辦法在spark中創建一個大的內存哈希表?
很感謝。這是否意味着地圖必須適合驅動程序的內存?還是它仍然分佈? – Kamal
@Kamal是啊它必須適應內存。 U可以使用pair rdd作爲查找表。也想到一個可積累的解決方案,將很快發佈 – aaronman
好吧。我正在尋找火花中的分佈式地圖。看起來不可能! – Kamal