2015-07-19 87 views
1

我需要使用文本文件和映射值使用該散列表構建一個散列表。分佈式映射和Spark查詢

這些文件已經在HDFS中。

我想使用這個散列映射來映射數據。

文本文件相當小(我有大約10個文件,每個MB需要用來構建hashmap)。

如果文件已經在HDFS上,我還可以做其他任何事情來優化處理,以便構建散列表和查找將以分佈式方式進行?

+0

你有機會檢查我的答案嗎? – gonbe

回答

0

雖然效果取決於您的數據集和操作,這裏是選擇我拿出

  1. 優化文本格式(Avro公司,KRYO等),這樣的HashMap可以快速構建
  2. 文件合併成一個HDFS文件,提高文件的塊的複製因子,使許多星火執行人可以得到讀取文件本地
  3. 使用星火廣播變量的HashMap的,使執行者不需要反序列化
+0

廣播變量不可改變嗎? – sourcedelica

+0

它們是不可變的。 Spark驅動程序從文件中初始化它。 – gonbe