scala

1熱度

1回答

只選擇每n個元素減少星火據幀的大小 I V有一個org.apache.spark.sql.Dataframe = [t: double, S: long] 現在我想通過每2元，以減少據幀，與val n=2 結果應該是你會如何解決這個問題？我嘗試了插入第三列並使用模，但我無法解決它。

0熱度

1回答

Spark：理解分區 - 內核

我想了解Spark中的分區。我在Windows 10本地模式下運行spark。我的筆記本電腦有2個物理內核和4個邏輯內核。 1 /術語：對我來說，spark =核心線程。所以Spark中的核心與物理核心不同，對吧？ Spark核心與任務相關聯，對嗎？如果是這樣，因爲你需要一個分區線程，如果我的sparksql數據框有4個分區，它需要4個線程嗎？ 2 /如果我有4個邏輯內核，是否意味着我只能在

-4熱度

1回答

Spark Scala數據幀等級分類

你好，我有原始數據，比如1我想添加一個以80爲中斷點的列作爲合格等級，結果應該是2。我正在使用sqlContext.read.format（「com.databricks.spark.csv」）來讀取原始數據。任何幫助！

0熱度

2回答

將Dataframe轉換爲Scala可變映射不會產生相同數量的記錄

我是Scala/spark的新手。我正在研究Scala/Spark應用程序，該應用程序從配置單元表中選擇幾列，然後將其轉換爲可變映射，其中第一列是鍵，第二列是值。例如： +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 將被轉換爲Scala.mutab

0熱度

2回答

Scala Spark - 計算Dataframe列中特定字符串的出現

如何計算df列中使用Spark分區的字符串出現次數id？例如在列查找值"test"的df 在SQL "name"是： def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

-6熱度

1回答

Scala錯誤未關閉字符文字訪問數據幀

在嘗試使用Scala訪問Spark的Dataframe操作時，返回字符文字錯誤。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

1熱度

1回答

需要幫助 - 如何循環訪問列表和/或地圖

Scala對我來說是非常新的，一旦離開收集的dsl，我就會遇到問題。在我的情況下，我調用一個API（Mailhog），它以json格式發送了很多郵件。我無法獲取所有的值。我需要它與「jsonPath」，我也需要「正則表達式」。這導致了我需要迭代並保存每個值的映射和列表。 .check(jsonPath("$[*]").ofType[Map[String,Any]].findAll.saveA

4熱度

1回答

Akka流保持空閒，而不是拋出異常

我是Akka/Scala的新手，正在嘗試調試下面的代碼。當resultSetParser有一個例外時，它不會拋出它。相反，使用此代碼的服務只是永遠閒置。如何讓我的服務拋出異常，而不僅僅是在流中等待？在Akka中有沒有類似watchException()的函數，我可以在watchTermination()之後調用它，使它在處理流時看到異常？ val chunkSource: Source[Chun

0熱度

1回答

斯卡拉項目編譯錯誤使用的IntelliJ社區版

我建立使用的IntelliJ（社區版）一階項目時具有以下生成錯誤：錯誤：（42 609）未發現：價值collect_list

0熱度

1回答

Spark 2.0 - 如何獲取與羣集中心關聯的羣集ID

我想知道與羣集中心關聯的ID是什麼。 model.transform(dataset)將爲我的數據點分配預測的羣集ID，並且model.clusterCenters.foreach(println)將打印這些羣集中心，但我無法弄清楚如何將羣集中心與其ID相關聯。 import org.apache.spark.ml.clustering.KMeans // Loads data. val d