2015-08-21 75 views
0

我從Twitter收集數據並將其存儲在hdfs上。我想根據時間戳對這些推文進行排序,但是這個查詢需要很長時間。如何提高Hive的速度

1.5 GB數據需要1分鐘排序,我認爲這比預期的要多得多。

可以做些什麼來加快此查詢?

感謝您的幫助。

回答

0

你不能期望從Hive得到更快的速度。在我們的Prod集羣上,涉及批量作業的MapReduce DAG的查詢的典型開銷是20秒 - 這與精簡意義的JDBC連接有關;有了Hive CLI,還有另外20多個用於啓動JVM並預熱TEZ容器。

如果您需要關係DBMS的響應時間,只需使用MySQL。或者可能是像免費版本的MemSQL這樣的分佈式的東西。