scala

    1熱度

    1回答

    只選擇每n個元素減少星火據幀的大小 I V有一個org.apache.spark.sql.Dataframe = [t: double, S: long] 現在我想通過每2元,以減少據幀,與val n=2 結果應該是 你會如何解決這個問題? 我嘗試了插入第三列並使用模,但我無法解決它。

    0熱度

    1回答

    我想了解Spark中的分區。 我在Windows 10本地模式下運行spark。 我的筆記本電腦有2個物理內核和4個邏輯內核。 1 /術語:對我來說,spark =核心線程。所以Spark中的核心與物理核心不同,對吧? Spark核心與任務相關聯,對嗎? 如果是這樣,因爲你需要一個分區線程,如果我的sparksql數據框有4個分區,它需要4個線程嗎? 2 /如果我有4個邏輯內核,是否意味着我只能在

    -4熱度

    1回答

    你好,我有原始數據,比如1我想添加一個以80爲中斷點的列作爲合格等級,結果應該是2。我正在使用sqlContext.read.format(「com.databricks.spark.csv」)來讀取原始數據。任何幫助!

    0熱度

    2回答

    我是Scala/spark的新手。我正在研究Scala/Spark應用程序,該應用程序從配置單元表中選擇幾列,然後將其轉換爲可變映射,其中第一列是鍵,第二列是值。例如: +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 將被轉換爲Scala.mutab

    0熱度

    2回答

    如何計算df列中使用Spark分區的字符串出現次數id? 例如在列查找值"test"的df 在SQL "name"是: def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

    -6熱度

    1回答

    在嘗試使用Scala訪問Spark的Dataframe操作時, 返回字符文字錯誤。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

    1熱度

    1回答

    Scala對我來說是非常新的,一旦離開收集的dsl,我就會遇到問題。 在我的情況下,我調用一個API(Mailhog),它以json格式發送了很多郵件。我無法獲取所有的值。 我需要它與「jsonPath」,我也需要「正則表達式」。 這導致了我需要迭代並保存每個值的映射和列表。 .check(jsonPath("$[*]").ofType[Map[String,Any]].findAll.saveA

    4熱度

    1回答

    我是Akka/Scala的新手,正在嘗試調試下面的代碼。當resultSetParser有一個例外時,它不會拋出它。相反,使用此代碼的服務只是永遠閒置。 如何讓我的服務拋出異常,而不僅僅是在流中等待?在Akka中有沒有類似watchException()的函數,我可以在watchTermination()之後調用它,使它在處理流時看到異常? val chunkSource: Source[Chun

    0熱度

    1回答

    我建立使用的IntelliJ(社區版)一階項目時具有以下生成錯誤: 錯誤:(42 609)未發現:價值collect_list

    0熱度

    1回答

    我想知道與羣集中心關聯的ID是什麼。 model.transform(dataset)將爲我的數據點分配預測的羣集ID,並且model.clusterCenters.foreach(println)將打印這些羣集中心,但我無法弄清楚如何將羣集中心與其ID相關聯。 import org.apache.spark.ml.clustering.KMeans // Loads data. val d