apache-spark-2.0

0熱度

3回答

我有一些表格，我需要掩蓋它的一些列。要屏蔽的列因表而不同，我正在閱讀application.conf文件中的那些列。例如，對於員工表如下圖所示 +----+------+-----+---------+ | id | name | age | address | +----+------+-----+---------+ | 1 | abcd | 21 | India | +----+-

1熱度

3回答

星火會話閱讀，而不是使用模式

我想讀的情侶使用SparkSession從HDFS文件夾CSV文件多張文件（即我不想讀取該文件夾中的所有文件）我收到以下錯誤，同時運行（在末尾代碼）： Path does not exist: file:/home/cloudera/works/JavaKafkaSparkStream/input/input_2.csv, /home/cloudera/works/JavaKafkaSpar

1熱度

1回答

用於導入各處火花隱含的解決方法

我是Spark 2.0的新用戶，並且在我們的代碼庫中使用數據集。我有點注意到我們需要在我們的代碼中無處不在。例如： File A class A { def job(spark: SparkSession) = { import spark.implcits._ //create dataset ds val b = new B(spark)

4熱度

1回答

使用Apache星火

從數據幀獲得一個重複計數我有一個看起來像這樣 +--------------+---------+-------+---------+ | dataOne|OtherData|dataTwo|dataThree| +--------------+---------|-------+---------+ | Best| tree| 5| 533| | OK| bush|

0熱度

1回答

捻與PySpark2：錯誤KuduStorageHandler

我試圖用PySpark 2.1.0 >>> from os.path import expanduser, join, abspath >>> from pyspark.sql import SparkSession >>> from pyspark.sql import Row >>> spark = SparkSession.builder \ .master("local"

0熱度

1回答

如何在spark 2（java）中創建廣播變量？

在星火1我們可以使用下面的代碼來創建一個星火廣播變量： SparkConf conf = new SparkConf(); conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); JavaSparkContext sc = new JavaSparkContext("local", "JavaAP

0熱度

1回答

Checkpointing使用不可序列化

想了解一個基本問題。這裏是我的代碼： def createStreamingContext(sparkCheckpointDir: String,batchDuration: Int) = { val ssc = new StreamingContext(spark.sparkContext, Seconds(batchDuration)) ssc } val ssc = Strea

4熱度

3回答

Spark中的各種連接類型是什麼？

我查看了文檔，它說支持以下連接類型：要執行的連接的類型。默認內部。必須是以下之一：內部，交叉， left_semi，left_anti。外部，完整，全部，外部，左側，左側外部，右側，右側外部， left_semi，left_anti。我查看了SQL連接上的StackOverflow answer，頂部的一些答案沒有提到上面的一些連接，例如， left_semi和left_anti。他們在Spa

1熱度

1回答

使用Spark DataSet的地圖值的聚合地圖

我使用Spark DataSet處理以下地圖格式的cassandra中的columnfamily。因此，我想分兩種類型溢價（City and Duster）與非溢價（Alto K10, Aspire, Nano and i10），我希望溢價與非溢價的最終計數值爲2（City,Duster計數）與10（ Alto K10, Aspire, Nano and i10）。代碼： case class

1熱度

2回答

使用RDD列表作爲數據幀過濾器操作的參數

我有以下代碼片段。 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.types import * sc = SparkContext() spark = SparkSession.builder.appName("test").getOrCreate() sc