對不起,無法評論。這不是一個答案,而是關於這個問題的一些想法。我也遇到了類似的問題,但是在用一個cassandra節點測試本地安裝時。最簡單的請求到10行表格
cqlsh:db> SELECT * FROM table;
在CQL shell中花費的時間不到一秒。
但是在鯊魚中大約需要10秒。
shark> USE db; SELECT * FROM table;
...
Time taken: 11.274 seconds
鯊魚目錄中有bin/shark-withinfo
可執行文件,它提供了有關請求的一些信息。也許它會爲你的案件提供一些啓示。就我而言,它表示執行大量任務來處理我的請求。所以我猜這個工作schleduer吃大部分時間,但我不太舒服
...
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Starting task 0.0:255 as TID 255 on executor localhost: localhost (PROCESS_LOCAL)
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Serialized task 0.0:255 as 5456 bytes in 0 ms
14/07/09 17:35:19 INFO executor.Executor: Running task ID 255
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Finished TID 254 in 30 ms on localhost (progress: 255/257)
14/07/09 17:35:19 INFO scheduler.DAGScheduler: Completed ResultTask(0, 254)
14/07/09 17:35:19 INFO storage.BlockManager: Found block broadcast_0 locally
14/07/09 17:35:19 INFO rdd.HadoopRDD: Input split: localhost 9160 org.apache.cassandra.dht.Murmur3Partitioner
14/07/09 17:35:19 INFO cql.HiveCqlInputFormat: Validators : null
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initializing Self 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Operator 260 FS initialized
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initialization Done 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Final Path: FS file:...
14/07/09 17:35:19 INFO exec.FileSinkOperator: Writing to temp file: ...
14/07/09 17:35:19 INFO exec.FileSinkOperator: New Final Path: ...
14/07/09 17:35:19 INFO executor.Executor: Serialized size of result for 255 is 563
14/07/09 17:35:19 INFO executor.Executor: Sending result for 255 directly to driver
14/07/09 17:35:19 INFO executor.Executor: Finished task ID 255
...
你知道在哪裏花的時間?它是Spark/Shark還是Cassandra? –
謝謝你的回覆。不,我不確切,因爲涉及到許多組件(卡桑德拉,火花,鯊魚)。 – Tharanga
一般來說,如果您正在處理性能問題,則必須確定其來源。運行'頂部'?試試'visualvm'?或者,希望Stack Overflow上的某個人是透徹的:)。 –