apache-spark

    -2熱度

    3回答

    我看到一個常見的設置來使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g開始pyspark,但如何駕駛員記憶從執行性記憶有什麼不同?您能否解釋一下驅動程序是什麼以及如何在此設置影響pyspark工作流程/性能? 謝謝!

    -4熱度

    1回答

    你好,我有原始數據,比如1我想添加一個以80爲中斷點的列作爲合格等級,結果應該是2。我正在使用sqlContext.read.format(「com.databricks.spark.csv」)來讀取原始數據。任何幫助!

    0熱度

    1回答

    我的輸入包含大量的小ORC文件,我希望在一天的每一天結束,我想將數據拆分爲100MB的塊。 我的輸入和輸出都是S3和環境中使用的電子病歷, 蜂巢參數,正在設置, set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

    5熱度

    1回答

    它看起來像這樣就會因錯誤 df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .bucketBy(32,"column").sortBy("column") .parque

    -1熱度

    1回答

    假設我試圖刪除這個正則表達式「RT \ s * @ USER \ w \ w {8}:\ s *」 並且我想在我的RDD中刪除這種形式的正則表達式。 我現在RDD是: text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和這裏就是我試圖刪除正則表達式的一部分。 我試着做下面的RDD轉換來擺脫每一個匹配這個

    0熱度

    2回答

    我是Scala/spark的新手。我正在研究Scala/Spark應用程序,該應用程序從配置單元表中選擇幾列,然後將其轉換爲可變映射,其中第一列是鍵,第二列是值。例如: +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 將被轉換爲Scala.mutab

    0熱度

    2回答

    如何計算df列中使用Spark分區的字符串出現次數id? 例如在列查找值"test"的df 在SQL "name"是: def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

    -6熱度

    1回答

    在嘗試使用Scala訪問Spark的Dataframe操作時, 返回字符文字錯誤。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

    1熱度

    1回答

    當我使用JanusGraph 0.2.0文檔的第35章中的示例時,它是可以的。但是當我將conf/hadoop-graph/hadoop-load.properties中的spark.master從local [*]更改爲spark://192.168.63.105:7077時,我收到了一些警告信息。 JanusGraph 0.2.0文檔的第35章有一個註釋: 本章中的示例基於在本地模式下運行Sp

    0熱度

    1回答

    我試圖從數據框的列中刪除特殊字符(?)。 我的數據是這樣的: 客戶端ID,PatientID AR0001å,DH_HL704221157198295_91 AR00022,DH_HL704221157198295_92 我的原始數據的大小從我需要大約8TB擺脫這個特殊的角色。 代碼加載數據: reader.option("header", true) .option("sep",