2014-06-25 132 views
0

我建立了一個兩(2)個節點的Cassandra集羣並嘗試使用鯊魚執行查詢。但查詢需要大約10分鐘。但查詢工作正常。 (我用Cloudera的安裝軟件對我來說)使用鯊魚查詢Cassandra需要太多時間

Time taken: 421.189 seconds 
shark> 

我通過改變某些參數(增加:SPARK_MEM和SHARK_MASTER_MEM)試圖調整鯊魚在的/ opt /鯊魚/鯊魚/ conf目錄/ shark- env.sh。但是沒有運氣。

非常感謝,如果有人可以給我任何線索這種緩慢?
這裏是我已經安裝了參與各種軟件版本的列表:

卡桑德拉:2.0.8
鯊魚:鯊魚0.9.1彬cdh4.6.0-fe75a886
星火:SPARK-0.9.0-1.cdh4.6.0.p0.98
Hadoop的:2.0.0-cdh4.7.0

硬件規格:
RAM:256GB
CPU:2×Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz(共20個核與HT

+0

你知道在哪裏花的時間?它是Spark/Shark還是Cassandra? –

+0

謝謝你的回覆。不,我不確切,因爲涉及到許多組件(卡桑德拉,火花,鯊魚)。 – Tharanga

+0

一般來說,如果您正在處理性能問題,則必須確定其來源。運行'頂部'?試試'visualvm'?或者,希望Stack Overflow上的某個人是透徹的:)。 –

回答

0

對不起,無法評論。這不是一個答案,而是關於這個問題的一些想法。我也遇到了類似的問題,但是在用一個cassandra節點測試本地安裝時。最簡單的請求到10行表格

cqlsh:db> SELECT * FROM table; 

在CQL shell中花費的時間不到一秒。

但是在鯊魚中大約需要10秒。

shark> USE db; SELECT * FROM table; 
... 
Time taken: 11.274 seconds 

鯊魚目錄中有bin/shark-withinfo可執行文件,它提供了有關請求的一些信息。也許它會爲你的案件提供一些啓示。就我而言,它表示執行大量任務來處理我的請求。所以我猜這個工作schleduer吃大部分時間,但我不太舒服

... 
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Starting task 0.0:255 as TID 255 on executor localhost: localhost (PROCESS_LOCAL) 
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Serialized task 0.0:255 as 5456 bytes in 0 ms 
14/07/09 17:35:19 INFO executor.Executor: Running task ID 255 
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Finished TID 254 in 30 ms on localhost (progress: 255/257) 
14/07/09 17:35:19 INFO scheduler.DAGScheduler: Completed ResultTask(0, 254) 
14/07/09 17:35:19 INFO storage.BlockManager: Found block broadcast_0 locally 
14/07/09 17:35:19 INFO rdd.HadoopRDD: Input split: localhost 9160 org.apache.cassandra.dht.Murmur3Partitioner 
14/07/09 17:35:19 INFO cql.HiveCqlInputFormat: Validators : null 
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initializing Self 260 FS 
14/07/09 17:35:19 INFO exec.FileSinkOperator: Operator 260 FS initialized 
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initialization Done 260 FS 
14/07/09 17:35:19 INFO exec.FileSinkOperator: Final Path: FS file:... 
14/07/09 17:35:19 INFO exec.FileSinkOperator: Writing to temp file: ... 
14/07/09 17:35:19 INFO exec.FileSinkOperator: New Final Path: ... 
14/07/09 17:35:19 INFO executor.Executor: Serialized size of result for 255 is 563 
14/07/09 17:35:19 INFO executor.Executor: Sending result for 255 directly to driver 
14/07/09 17:35:19 INFO executor.Executor: Finished task ID 255 
...