我正在處理一個有一些表的數據庫(2.5 GB)只有40行到一些有900萬行的數據。 當我正在做大型表的任何查詢時,需要更多時間。 我要上表具有90行不僅導致更少的時間配置單元性能增加
小查詢 - >
hive> select count(*) from cidade;
Time taken: 50.172 seconds
HDFS-site.xml中
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.block.size</name>
<value>131072</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
做這些設置會影響蜂巢的表現呢? dfs.replication=3
dfs.block.size=131072
我可以將它從蜂巢提示符
hive>set dfs.replication=5
是此值仍然只有perticular會話?
還是更好的改變它在.xml文件?
哪些是會提高性能的其他參數先生? –