Q

分佈式映射和Spark查詢

2015-07-19 87 views 1 likes

1

我需要使用文本文件和映射值使用該散列表構建一個散列表。分佈式映射和Spark查詢

這些文件已經在HDFS中。

我想使用這個散列映射來映射數據。

文本文件相當小（我有大約10個文件，每個MB需要用來構建hashmap）。

如果文件已經在HDFS上，我還可以做其他任何事情來優化處理，以便構建散列表和查找將以分佈式方式進行？

2015-07-19 user3803714

+0

你有機會檢查我的答案嗎？ – gonbe

A

回答

0

雖然效果取決於您的數據集和操作，這裏是選擇我拿出

優化文本格式（Avro公司，KRYO等），這樣的HashMap可以快速構建
文件合併成一個HDFS文件，提高文件的塊的複製因子，使許多星火執行人可以得到讀取文件本地
使用星火廣播變量的HashMap的，使執行者不需要反序列化

2015-07-19 18:18:01 gonbe

+0

廣播變量不可改變嗎？ – sourcedelica

+0

它們是不可變的。 Spark驅動程序從文件中初始化它。 – gonbe

相關問題