apache-spark

    1熱度

    2回答

    對不起,有一個新手問題。 目前我有日誌文件,其中包含諸如userId,event和timestamp等字段,同時缺少sessionId。我的目標是根據時間戳和預先定義的值TIMEOUT爲每條記錄創建一個sessionId。 如果超時值是10,和樣本數據幀是: scala> eventSequence.show(false) +----------+------------+------

    2熱度

    1回答

    對於使用spark streaming的日誌處理,我已經使用了socketStream和textFileStream API。通過socketStream,在特定的端口上使用nc -lk,我們可以讀取附加的日誌文件,並且通過textFileStream,可以讀取目錄中添加的任何新文件並進行累計處理。 我所尋找的是一個單日誌文件,隨着時間的增長,我怎麼能讀取相同的日誌文件轉換爲說:DSTREAM或任

    0熱度

    1回答

    我使用帶有Cloudera 5.5.0的pyspark 1.5.0版。所有腳本運行良好,除非我使用sc.wholeTextFiles。使用這個命令給出了一個錯誤: Kryo Serialization failed: Buffer overflow. Available:0, required: 23205706. To avoid this, increase spark.kryoseriali

    0熱度

    1回答

    現在即時通訊使用K-均值聚類及以下 this tutorial 和API 但我想使用的計算距離的自定義公式推。那麼我怎麼能通過PySpark的k-means自定義距離函數? 請幫我解決這個問題!

    0熱度

    1回答

    我是新來的scala以及FOR spark,請幫我解決這個問題。 在spark殼中當我單獨加載下面的函數時它們運行時沒有任何異常,當我在scala對象中拷貝這個函數,並且在spark殼中加載相同的文件時它們會拋出任務沒有序列化試圖在「processbatch」並行。 爲同一PFB代碼: import org.apache.spark.sql.Row import org.apache.log4j

    0熱度

    1回答

    頂點相似的鄰居假設有一個簡單的圖形,如: val users = sc.parallelize(Array( (1L, Seq("M", 2014, 40376, null, "N", 1, "Rajastan")), (2L, Seq("M", 2009, 20231, null, "N", 1, "Rajastan")), (3L, Seq("F"

    1熱度

    1回答

    鑑於我有一些SparkSqlRDD結果: CassandraRow{location_id: 163169767097254, context: drinking beer} CassandraRow{location_id: 376101312892, context: drinking beer} CassandraRow{location_id: 218866401458875, con

    0熱度

    1回答

    我試圖將我的Spark應用程序(用Java編寫成Scala)「轉換」爲Scala。 因爲我是新來的Scala和火花的斯卡拉API,我不知道如何寫在斯卡拉這個 「transformToPair」 功能: 的Java: JavaPairDStream<String, Boolean> outlierPairDStream = avgAll1h.union(avgPerPlug1h).transform

    0熱度

    2回答

    rlike工作正常,但not rlike拋出一個錯誤: scala> sqlContext.sql("select * from T where columnB rlike '^[0-9]*$'").collect() res42: Array[org.apache.spark.sql.Row] = Array([412,0], [0,25], [412,25], [0,25]) scala

    4熱度

    1回答

    我想離線(再次)在sbt項目上工作。事情似乎沒有問題,但有些令我感到莫名其妙的事情。下面是我注意到: 我創建了一個空的SBT項目,並正在考慮在build.sbt以下依賴性: name := "sbtSand" version := "1.0" scalaVersion := "2.11.7" libraryDependencies ++= Seq( "joda-time" %