apache-spark-dataset

    4熱度

    2回答

    在上火花數據集有多種生成的函數簽名select()功能展望: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) 這似乎在暗示我應該能夠MyClass的成員直接引用,並類型安全,但我不知道如何... ds.select("member")當然工程..似乎ds.select(_.member)也可能以某種方式工作?

    0熱度

    1回答

    我想使用數據集而不是數據框。 我讀拼花文件,而想直接推斷類型: val df: Dataset[Row] = spark.read.parquet(path) 我不想Dataset[Row]但Dataset做。 我知道我可以這樣做: val df= spark.read.parquet(path).as[myCaseClass] 但是,我的數據有很多列!所以,如果我能避免寫一個案例課,那就

    1熱度

    1回答

    我應該如何正確使用spark 2.0數據集API解析日期時間? 有許多用於數據幀的樣本/ RDD像 Spark date parsing Better way to convert a string field into timestamp in Spark How to change the column type from String to Date in DataFrames? 類等 ca

    3熱度

    1回答

    我是Scala的新手。我試圖將一個scala列表(它保存源數據框上的一些計算數據的結果)轉換爲Dataframe或Dataset。我沒有找到任何直接的方法來做到這一點。 但是,我已經嘗試了以下過程將我的列表轉換爲DataSet,但它似乎無法正常工作。我正在提供以下三種情況。 有人可以給我提供一些希望,如何做這種轉換?謝謝。 import org.apache.spark.sql.{DataFram

    6熱度

    2回答

    我在Scala中使用Spark,並且我的聚合列是匿名的。有沒有一種方便的方法來重命名數據集中的多個列?我想加一個as的模式,但關鍵列是一個結構(由於groupBy操作),我不知道如何定義一個case class與StructType在其中。 我試着定義模式如下: val returnSchema = StructType(StructField("edge", StructType(StructF

    0熱度

    1回答

    我很努力去理解如何創建數據集模式。我有一個聚合的數據集,其中一列中的關鍵元組和聚合的第二個: > ds.show +------+------+ | _1| _2| +------+------+ |[96,0]| 93439| |[69,0]|174386| |[42,0]| 12427| |[15,0]| 2090| |[80,0]| 2626| |[91,0]| 71963

    5熱度

    2回答

    我想從簡單的CSV文件創建Spark數據集。下面是CSV文件的內容: name,state,number_of_people,coolness_index trenton,nj,"10","4.5" bedford,ny,"20","3.3" patterson,nj,"30","2.2" camden,nj,"40","8.8" 這裏是使數據集的代碼: var location =

    0熱度

    1回答

    我試圖從另一個數據集以間隔來創建一個新的數據集其他數據集的部分星火數據集,例如,考慮數據集1作爲輸入,並dataset2作爲輸出: dataset1 = [1, 2, 3, 4, 5, 6] dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6] 我能夠做到使用數組,但對於mlib數據集是必需的。 我與陣列碼: def generateSeries(values:

    1熱度

    1回答

    我正在使用spark 2.0.0。這裏是我的代碼: import org.apache.spark.sql.DataFrame import org.apache.spark.sql.SparkSession import org.apache.spark.sql.catalyst.analysis.EliminateSubqueryAliases import org.apache.spa

    2熱度

    1回答

    使用DataFrame,可以使用df.withColumnRename("oldName", "newName")簡單重命名列。在數據集中,由於每個字段都是鍵入和命名的,所以這似乎不可行。圍繞我能想到的唯一工作就是對數據集使用map: case class Orig(a: Int, b: Int) case class OrigRenamed(a: Int, bNewName: Int) v