Spark：使用map並使用SparkSql減少

2017-07-18 141 views 1 likes

我不應該問這個問題，我真的不想問，但我迷路了。我看到很多以wordcount爲例的教程。但我有問題，瞭解如何與sparkSql 使用它，例如，我有以下查詢Spark：使用map並使用SparkSql減少

Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales");

它使我的數據集？現在我可以迭代totalItem和打印結果，但我想要計算該項目發生的次數。這可以用map和reduce來完成，但我不知道該怎麼做。此外，如果有人用java知道sparkSql在這裏我們可以存儲結果變量，而不是使用show()，我會很gratefull

來源

2017-07-18 Saurab

回答

如果你想算一個項目多少次發生時，您可以使用sparksql查詢本身做如下：

spark.sql("select icode,count(icode) from bigmart.o_sales group by icode")

，或者你可以按如下方式使用API：

val df=spark.table("bigmart.o_sales").groupBy($"icode").count.show

希望它能回答您的問題

來源

2017-07-18 10:20:03

謝謝，我正在寫很長的路。但我仍然有一些問題 – Saurab

它的舊的寫作方式，可能不會被優化，但如果你正在做的事情是不可能的與SQL或dsl比你可以使用地圖和減少。如果你使用SQL然後優化計劃生成避免不必要的計算 –

so，doing this 'JavaPairRDD counts = totalItem.toJavaRDD（）。mapToPair（x - > new Tuple2 <>（x.toString（），1））。reduceByKey（（x，y ） - > x + y）; System.out.println（counts.collect（）。get（8））;' 不好？ – Saurab

相關問題

1. Mongoid Map使用has_one減少
2. 如何在Spark Java Map函數中使用sql.date與SparkSQL
3. Spark數據集使用空值減少？
4. 並行化map減少
5. 想合併mongo db中的兩個集合使用map減少
6. Mongo Map利用PHP減少
7. mongoDB map/reduce減去減少
8. 將for循環與map並行化並使用pyspark減少火花
9. spark減少使用scala減少列表時的性能/複雜性
10. 減少使用python