我試圖獲得一些Cassandra/SPARK數據的最小,最大平均值,但我需要用JAVA來完成。如何使用Spark DataFrame計算Cassandra表的彙總統計信息?
import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;
DataFrame df = sqlContext.read()
.format("org.apache.spark.sql.cassandra")
.option("table", "someTable")
.option("keyspace", "someKeyspace")
.load();
df.groupBy(col("keyColumn"))
.agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
.show();
編輯以顯示工作版本: 確保把「圍繞someTable和someKeyspace
這看起來很像試圖讓別人爲你寫代碼。該代碼有各種部分。你知道如何在Java中做什麼,以及哪些是你堅持的? –