apache-spark-dataset

8熱度

2回答

Spark 2.1和Scala 2.11在此處。我有一個大的Map[String,Date]，其中有10K個鍵/值對。我也有10K JSON文件活可訪問的文件系統上，以火花： mnt/ some/ path/ data00001.json data00002.json data00003.json ...

2熱度

1回答

Spark數據集：如果值包含在其他數據集中，則進行過濾

我想從邊數據集中獲取所有鏈接，其源包含在所有現有節點的數據集中。邊欄： dst | src |鍵入| （所有字符串）節點列：| id | pageid | （所有字符串）我是通過從數據集中檢索列表並使用contains（）方法來實現的。 List<String> allNodeList = allNodes.javaRDD().map(r -> r.getString(0)).collect

1熱度

2回答

火花查詢在地圖上

0熱度

1回答

錯誤：重載的方法值「預測」替代/雙不參數

我想建立一個簡單的線性模型來預測標籤值使用LinearRegressionWithSGD。我轉換的數據集獲得的功能和標籤，再轉換爲標記點做迴歸 val train = dftrain.withColumn("label", dftrain("col2")).select("features", "label") val test = dftest.withColumn("label", dft

1熱度

1回答

json與內部陣列的火花數據集

我正在嘗試將json讀入數據集（spark 2.1.1）。不幸的是它不起作用。並失敗： Caused by: java.lang.NullPointerException: Null value appeared in non- nullable field: - field (class: "scala.Long", name: "age") 任何想法我做錯了什麼？ case class

2熱度

2回答

如何將包含頭文件（無行）的數據集寫入hdfs位置（csv格式），使其在下載時包含頭文件？

我有一個數據集只包含標題（ID，名稱，年齡）和0行。我想用 DataFrameWriter dataFrameWriter = dataset.write(); Map<String, String> csvOptions = new HashMap<>(); csvOptions.put("header", "true"); dataFrameWriter = dataFrameWrit

1熱度

1回答

星火合併兩個單值數據集

1熱度

1回答

計算總和，多個頂部的K值的計數火花

我有格式 +---------------------------------+ |name| values |score |row_number| +---------------------------------+ |A |1000 |0 |1 | |B |947 |0 |2 | |C |923 |1 |3 | |D |900 |2 |4 | |E |850 |

1熱度

3回答

星火會話閱讀，而不是使用模式

我想讀的情侶使用SparkSession從HDFS文件夾CSV文件多張文件（即我不想讀取該文件夾中的所有文件）我收到以下錯誤，同時運行（在末尾代碼）： Path does not exist: file:/home/cloudera/works/JavaKafkaSparkStream/input/input_2.csv, /home/cloudera/works/JavaKafkaSpar

1熱度

1回答

Spark GroupBy聚合函數

case class Step (Id : Long, stepNum : Long, stepId : Int, stepTime: java.sql.Timestamp ) 我有一個數據集[步驟]，我想對「Id」列執行groupBy操作。我的輸出應該看起來像Dataset [（Long，List [Step]）]]。我該怎麼