scala

    0熱度

    1回答

    首先,爲標題道歉,我不確定如何簡潔地描述這一點。 我有一個Spark日誌解析到JSON,然後使用spark-sql將特定列轉換爲ORC並寫入各種路徑。例如: val logs = sc.textFile("s3://raw/logs") val jsonRows = logs.mapPartitions(partition => { partition.map(log => {

    1熱度

    1回答

    Scala反射非常複雜。它包含類型符號和鏡像。你能告訴我他們之間的關係嗎?

    5熱度

    2回答

    如果我在Intellij的Scala工作表的頂部導入了一個對象的內容,那麼當我向對象添加新的東西時,工作表。即使在我構建項目並重新評估工作表後,它也找不到新的屬性。自動完成的作品。如果我退出並重新啓動IntelliJ,它將起作用。 這是錯誤: java.lang.NoSuchMethodError: Arith$.foo()Ljava/lang/String; at #worksheet

    -1熱度

    1回答

    我試圖將RDD(key,value)轉換爲RDD(key,iterable[value]),與groupByKey方法返回的輸出相同。 但由於groupByKey效率不高,我試圖在RDD上使用combineByKey,但它不起作用。下面是使用的代碼: val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

    1熱度

    1回答

    我是新來的火花。我使用結構化流式傳輸從kafka讀取數據。 我可以在Scala中使用此代碼讀取數據: val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option

    3熱度

    1回答

    當我在我的SBT項目執行任務compile,我有以下錯誤信息: [warn] Found version conflict(s) in library dependencies; some are suspected to be binary incompatible: [warn] * org.typelevel:cats-core_2.12:1.0.0-MF is selected over

    2熱度

    1回答

    我正在運行處理多組數據點的Spark應用程序;其中一些組需要按順序處理。當運行應用程序的小數據點(約100),一切正常。但在某些情況下,這些套件的尺寸大約爲ca。 10,000個數據點,這些會導致工作與以下堆棧跟蹤崩潰: Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage fail

    1熱度

    1回答

    兩個問題 問題1)爲什麼要以這樣的方式來實現一個迭代器,它不能被重用?它是否實現內存優化? scala> while (it.hasNext) println(it.next) 1 2 3 4 5 scala> while (it.hasNext) println(it.next) scala> 問題2)如何迭代器實現來實現這一行爲呢? iterator是否僅指向集合中的一個

    1熱度

    1回答

    我在研究有關.sbt擴展名文件的參考文檔。什麼碼我感到困惑的是: lazy val version = new { val finatra = "2.1.2" } 我知道VAL finatra可以通過version.finatra訪問,但它似乎是「對象單身。」這些是這樣的: object version { val finatra = "2.1.2" } 在這種情況

    2熱度

    1回答

    我在Play 2.6應用程序中聲明泛型方法時遇到問題,該應用程序將JSON轉換爲其中一個案例類模型的實例。 import play.api.libs.json.{Json, OFormat} case class Shot(id: Long, likes_count: Long) object Shot { implicit val format: OFormat[Shot] = J