apache-spark

    0熱度

    2回答

    我正在Spark上新建。當工作節點數量增加時,我面臨性能問題。因此,爲了調查這一點,我嘗試了一些Spark-Shell上的示例代碼。 我創建了一個帶有2個工作節點(m3.xlarge)的Amazon AWS EMR。我在主節點的spark-shell上使用了以下代碼。 var df = sqlContext.range(0,6000000000L).withColumn("col1",rand(1

    2熱度

    1回答

    如何在「pyspark」Spark Shell中進入粘貼模式?其實我正在「pyspark」中尋找一個等價的「:paste」命令(在Scala Spark Shell中工作)。通過使用這種模式,我想將整個代碼片段粘貼到shell中,而不是逐行執行。

    0熱度

    1回答

    我在星火UI應用程序的工作持續時間如下: Job Duration in Spark UI 這裏是Spark UI的批處理時間: Batch Processing Time in Spark UI 注意,批處理時間一般長於工作時間。那麼,他們之間有什麼區別?

    1熱度

    1回答

    我的用例如下:我們正在使用Spark從HDFS讀取和轉換數據。轉換後的數據應保存在memsql中。 是否有任何使用Spark寫入memsql的最佳實踐?也就是說,使用Dataframe進行大規模(並行)寫入時,確保寫入性能和可伸縮性的最佳方式是什麼? 什麼是首選解決方案:使用memsql/Spark連接器(https://github.com/memsql/memsql-spark-connect

    2熱度

    1回答

    最後3天,我試圖建立一個泊塢窗機3個部分組成: 火花法師,一個星火工人和1名司機(Java)的應用 當從泊塢窗以外啓動驅動程序,一切工作正常。但是開始,所有三個組成部分導致了端口防火牆主機的噩夢 爲了保持它(第一),簡單的我用泊塢窗 - 撰寫 - 這是我的搬運工,compose.yml: driver: hostname: driver image: driverimage

    0熱度

    1回答

    我正在嘗試使用樸素貝葉斯算法來構建文本分類模型。 這裏是我的樣本數據(標籤和功能): 1|combusting [chemical] 1|industrial purposes 1| 2|salt for preserving, 2|other for foodstuffs 2|auxiliary 2|fluids for use with abrasives 3|vulcanisa

    15熱度

    2回答

    我想創建一個新的 mongodb RDD,每當我進入foreachRDD時。不過我有序列化問題: mydstream .foreachRDD(rdd => { val mongoClient = MongoClient("localhost", 27017) val db = mongoClient(mongoDatabase) val coll =

    3熱度

    2回答

    在AWS羣集上運行Spark工作時,我相信我已經正確更改了我的代碼,以便分配數據和我正在使用的算法的工作。但輸出看起來是這樣的: [Stage 3:> (0 + 2)/1000] [Stage 3:> (1 + 2)/1000] [Stage 3:> (2 + 2)/1000] [Stage 3:>

    0熱度

    1回答

    給定以下的Apache火花(Python)的碼(它是工作): import sys from random import random from operator import add import sqlite3 from datetime import date from datetime import datetime from pyspark import SparkCont

    -1熱度

    3回答

    我正在嘗試從s3獲取.seq文件。當我嘗試使用 sc.textFile("s3n://logs/box316_0.seq").take(5).foreach(println) 輸出到讀它 - SEQorg.apache.hadoop.io.Text"org.apache.hadoop.io.BytesWritable'org.apache.hadoop.io.compress.GzipCode