apache-spark

0熱度

2回答

我正在Spark上新建。當工作節點數量增加時，我面臨性能問題。因此，爲了調查這一點，我嘗試了一些Spark-Shell上的示例代碼。我創建了一個帶有2個工作節點（m3.xlarge）的Amazon AWS EMR。我在主節點的spark-shell上使用了以下代碼。 var df = sqlContext.range(0,6000000000L).withColumn("col1",rand(1

2熱度

1回答

如何在pyspark shell中使用粘貼模式？

如何在「pyspark」Spark Shell中進入粘貼模式？其實我正在「pyspark」中尋找一個等價的「：paste」命令（在Scala Spark Shell中工作）。通過使用這種模式，我想將整個代碼片段粘貼到shell中，而不是逐行執行。

0熱度

1回答

Spark Streaming中「作業時間」和「批處理時間」有什麼區別？

我在星火UI應用程序的工作持續時間如下： Job Duration in Spark UI 這裏是Spark UI的批處理時間： Batch Processing Time in Spark UI 注意，批處理時間一般長於工作時間。那麼，他們之間有什麼區別？

1熱度

1回答

使用Spark寫入memsql的最佳實踐

我的用例如下：我們正在使用Spark從HDFS讀取和轉換數據。轉換後的數據應保存在memsql中。是否有任何使用Spark寫入memsql的最佳實踐？也就是說，使用Dataframe進行大規模（並行）寫入時，確保寫入性能和可伸縮性的最佳方式是什麼？什麼是首選解決方案：使用memsql/Spark連接器（https://github.com/memsql/memsql-spark-connect

2熱度

1回答

如何在Docker容器中設置執行器IP？

最後3天，我試圖建立一個泊塢窗機3個部分組成：火花法師，一個星火工人和1名司機（Java）的應用當從泊塢窗以外啓動驅動程序，一切工作正常。但是開始，所有三個組成部分導致了端口防火牆主機的噩夢爲了保持它（第一），簡單的我用泊塢窗 - 撰寫 - 這是我的搬運工，compose.yml： driver: hostname: driver image: driverimage

0熱度

1回答

使用樸素貝葉斯的文本分類（哈希術語頻率）

15熱度

2回答

Spark Streaming：foreachRDD更新我的mongo RDD

我想創建一個新的 mongodb RDD，每當我進入foreachRDD時。不過我有序列化問題： mydstream .foreachRDD(rdd => { val mongoClient = MongoClient("localhost", 27017) val db = mongoClient(mongoDatabase) val coll =

3熱度

2回答

解釋Spark Stage輸出日誌

在AWS羣集上運行Spark工作時，我相信我已經正確更改了我的代碼，以便分配數據和我正在使用的算法的工作。但輸出看起來是這樣的： [Stage 3:> (0 + 2)/1000] [Stage 3:> (1 + 2)/1000] [Stage 3:> (2 + 2)/1000] [Stage 3:>

0熱度

1回答

apache如何在mapPartitions的spark中分配任務？

給定以下的Apache火花（Python）的碼（它是工作）： import sys from random import random from operator import add import sqlite3 from datetime import date from datetime import datetime from pyspark import SparkCont

-1熱度

3回答

如何在Spark中讀取s3中的.seq文件

我正在嘗試從s3獲取.seq文件。當我嘗試使用 sc.textFile("s3n://logs/box316_0.seq").take(5).foreach(println) 輸出到讀它 - SEQorg.apache.hadoop.io.Text"org.apache.hadoop.io.BytesWritable'org.apache.hadoop.io.compress.GzipCode