我需要使用文本文件和映射值使用該散列表構建一個散列表。分佈式映射和Spark查詢
這些文件已經在HDFS中。
我想使用這個散列映射來映射數據。
文本文件相當小(我有大約10個文件,每個MB需要用來構建hashmap)。
如果文件已經在HDFS上,我還可以做其他任何事情來優化處理,以便構建散列表和查找將以分佈式方式進行?
我需要使用文本文件和映射值使用該散列表構建一個散列表。分佈式映射和Spark查詢
這些文件已經在HDFS中。
我想使用這個散列映射來映射數據。
文本文件相當小(我有大約10個文件,每個MB需要用來構建hashmap)。
如果文件已經在HDFS上,我還可以做其他任何事情來優化處理,以便構建散列表和查找將以分佈式方式進行?
雖然效果取決於您的數據集和操作,這裏是選擇我拿出
廣播變量不可改變嗎? – sourcedelica
它們是不可變的。 Spark驅動程序從文件中初始化它。 – gonbe
你有機會檢查我的答案嗎? – gonbe