2014-01-27 71 views
0

我剛剛在我們的服務器上安裝了Presto(版本0.57),並在日誌中進行了選擇計數(*);僅有6.4億記錄(〜64GB)的表格需要17分鐘以上。限制速度Presto的因素?

現在我的印象是這樣的速度太慢了,但我不確定。

一些信息:

蜂房和普雷斯托都被安裝了從他們的文檔的默認配置。

Hive表是一個大約24列的外部表,其中大多數是字符串,其中3個是數組,並且該文件存儲爲文本文件(由於某種原因,Hive對我的文件抱怨RCFile)。

該表將主要用於分組和計數操作。

您是否有任何有關提高性能的提示或針對簡單計數(*)的目標查詢時間應該是多少?

乾杯

回答

1

你應該解決RCFile您的問題。使用RCFile可以提高性能(開發人員認爲符合我的經驗的x2-x4)。嘗試在Presto中使用CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>;進行轉換。 (請確保磁盤上有足夠的空間。)