apache-spark

    0熱度

    1回答

    我正在使用Dstream(Spark Streaming)的Transform API對數據進行排序。 我正在使用netcat從TCP套接字讀取數據。 繼使用的代碼行: myDStream.transform(rdd => rdd.sortByKey()) 無法找到函數sortByKey。任何人都可以請幫助這一步中的問題是什麼?

    1熱度

    2回答

    我有一個項目有多個scala spark程序,而我通過eclipse運行mvn install我能夠得到正確的jar生成的使用spark-submit命令運行 將代碼推送到GIT之後,我們試圖使用jenkins來構建它,因爲我們想要使用無法自動將jar文件推送到我們的hadoop集羣 我們有jenkinsfile與建立目標爲「編譯軟件包安裝-X」 日誌顯示 - [DEBUG](f)artifact

    0熱度

    2回答

    我正在處理一個優化問題,該問題涉及在對象集合上最小化昂貴的地圖操作。 天真溶液會是這樣的 rdd.map(expensive).min() 然而,映射函數將返回保證是值> = 0。因此,如果任何一個的結果是0,I可以採取作爲答案和不需要計算其餘的地圖操作。 是否有使用Spark做到這一點的慣用方式?

    0熱度

    2回答

    我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據,並想知道如何在代碼中設置拆分和工人數量? 我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

    3熱度

    2回答

    |T 2009-08-26 17:1...| |U http://twitter....| | W No Post Title| | | |T 2009-11-01 02:4...| |U http://twitter....| | W No Post Title| | | |T 2009-11-18 16:5...| |U http://twitter...

    2熱度

    1回答

    我在scala Spark中訓練了一個LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我檢查了我保存的模型,它包含兩個文件夾:元數據和數據。 然而,當我嘗試這種模式加載到PySpark,我得到了一個錯誤說: model = LDAMod

    1熱度

    1回答

    我無法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每個值都是一個列表。 有沒有方法可以拆分RDD,使得它成爲 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 現在在哪裏每個值是列表的元素之一,搭配的關鍵。 我大致知

    0熱度

    3回答

    我有一個RDD看起來像這樣 [(3,6,7), (2,5,7), (4,3,7)] 我想獲得的平均第一要素,以及第二個元素之和的總和第三要素。這是輸出是什麼樣子: (3,14,21) 是否有可能做到這一點使用pyspark?

    2熱度

    2回答

    我使用的查詢,如下所示,以從MySQL獲取數據: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retai

    0熱度

    1回答

    我有以下結構的數據幀: root |-- index: long (nullable = true) |-- text: string (nullable = true) |-- topicDistribution: struct (nullable = true) | |-- type: long (nullable = true) | |-- values: array (nulla