如何使用Spark DataFrame計算Cassandra表的彙總統計信息？

-3

我試圖獲得一些Cassandra/SPARK數據的最小，最大平均值，但我需要用JAVA來完成。如何使用Spark DataFrame計算Cassandra表的彙總統計信息？

import org.apache.spark.sql.DataFrame; 
import static org.apache.spark.sql.functions.*; 

DataFrame df = sqlContext.read() 
     .format("org.apache.spark.sql.cassandra") 
     .option("table", "someTable") 
     .option("keyspace", "someKeyspace") 
     .load(); 

df.groupBy(col("keyColumn")) 
     .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn")) 
     .show();

編輯以顯示工作版本： 確保把「圍繞someTable和someKeyspace

來源

2016-02-08 mithrix

這看起來很像試圖讓別人爲你寫代碼。該代碼有各種部分。你知道如何在Java中做什麼，以及哪些是你堅持的？ –

只需將您的數據導入爲DataFrame並應用所需的聚合：

import org.apache.spark.sql.DataFrame; 
import static org.apache.spark.sql.functions.*; 

DataFrame df = sqlContext.read() 
     .format("org.apache.spark.sql.cassandra") 
     .option("table", someTable) 
     .option("keyspace", someKeyspace) 
     .load(); 

df.groupBy(col("keyColumn")) 
     .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn")) 
     .show();

其中someTable和someKeyspace分別存儲表名和keyspace。

來源

2016-02-08 21:29:34 zero323

我試過這個，但是我得到一個錯誤：是這行'.options（「keyspace」，model）'它說找不到符號變量模型並且在這行' – mithrix