apache-spark

-2熱度

3回答

我看到一個常見的設置來使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g開始pyspark，但如何駕駛員記憶從執行性記憶有什麼不同？您能否解釋一下驅動程序是什麼以及如何在此設置影響pyspark工作流程/性能？謝謝！

-4熱度

1回答

Spark Scala數據幀等級分類

你好，我有原始數據，比如1我想添加一個以80爲中斷點的列作爲合格等級，結果應該是2。我正在使用sqlContext.read.format（「com.databricks.spark.csv」）來讀取原始數據。任何幫助！

0熱度

1回答

Hive合併小ORC文件

我的輸入包含大量的小ORC文件，我希望在一天的每一天結束，我想將數據拆分爲100MB的塊。我的輸入和輸出都是S3和環境中使用的電子病歷，蜂巢參數，正在設置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

5熱度

1回答

如何將具有bucketBy/sortkey值的parquet文件保存到s3中？

它看起來像這樣就會因錯誤 df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .bucketBy(32,"column").sortBy("column") .parque

-1熱度

1回答

如何使用RDD去除PySpark中的某些正則表達式？

假設我試圖刪除這個正則表達式「RT \ s * @ USER \ w \ w {8}：\ s *」並且我想在我的RDD中刪除這種形式的正則表達式。我現在RDD是： text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和這裏就是我試圖刪除正則表達式的一部分。我試着做下面的RDD轉換來擺脫每一個匹配這個

0熱度

2回答

將Dataframe轉換爲Scala可變映射不會產生相同數量的記錄

我是Scala/spark的新手。我正在研究Scala/Spark應用程序，該應用程序從配置單元表中選擇幾列，然後將其轉換爲可變映射，其中第一列是鍵，第二列是值。例如： +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 將被轉換爲Scala.mutab

0熱度

2回答

Scala Spark - 計算Dataframe列中特定字符串的出現

如何計算df列中使用Spark分區的字符串出現次數id？例如在列查找值"test"的df 在SQL "name"是： def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

-6熱度

1回答

Scala錯誤未關閉字符文字訪問數據幀

在嘗試使用Scala訪問Spark的Dataframe操作時，返回字符文字錯誤。 [ERROR] /home/cloudera/sharedCloudera-vm/hw3-skeleton/Q2/src/main/scala/edu/gatech/cse6242/Q2.scala:25: error: unclosed character literal [INFO] val filterNod

1熱度

1回答

JanusGraph 0.2.0 Spark未能連接到主設備

當我使用JanusGraph 0.2.0文檔的第35章中的示例時，它是可以的。但是當我將conf/hadoop-graph/hadoop-load.properties中的spark.master從local [*]更改爲spark：//192.168.63.105：7077時，我收到了一些警告信息。 JanusGraph 0.2.0文檔的第35章有一個註釋：本章中的示例基於在本地模式下運行Sp

0熱度

1回答

從數據框的列中刪除特殊字符

我試圖從數據框的列中刪除特殊字符（？）。我的數據是這樣的：客戶端ID，PatientID AR0001å，DH_HL704221157198295_91 AR00022，DH_HL704221157198295_92 我的原始數據的大小從我需要大約8TB擺脫這個特殊的角色。代碼加載數據： reader.option("header", true) .option("sep",