apache-spark-sql

    -1熱度

    1回答

    我正在播放一個大地圖(〜6-10 GB)。我正在使用sc.broadcast(prod_rdd)來做到這一點。但是,我不確定廣播是否僅適用於小數據/文件,而不適用於我擁有的大型對象。如果是前者,那麼推薦的做法是什麼?一種選擇是使用NoSQL數據庫,然後使用它進行查找。與此相關的一個問題是我可能不得不放棄性能,因爲我將經歷一個單一節點(區域服務器或任何等價的)。如果任何人有任何洞察這些設計選擇的性能

    1熱度

    2回答

    更新 原來,這有什麼用方式做Databricks星火CSV讀者創建數據幀。在下面的示例中,這不起作用,我使用Databricks CSV閱讀器讀取人員和地址CSV,然後以Parquet格式將生成的DataFrame寫入HDFS。 我改變了代碼來創建數據框: JavaRDD<Address> address = context.textFile("/Users/sfelsheim/data/addr

    2熱度

    1回答

    我有一個表,其中有Start和EndDate列。我想明智地對數據進行分區,並在每個月分區上運行該算法。 目前,我使用日期(StartDtae和EndDate)過濾DataFrame並按順序運行每個月的算法。 例如Jan和feb,march等等。我們無法通過按順序運行算法來獲得每月的SPARK並行度的好處 我想在1月,2月,3月份並行運行每個月的算法....以利用並行性火花。 爲了給這個問題增加更多

    5熱度

    3回答

    刪除臨時表我有registertemptable在Apache Spark使用下面Zeppelin: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val h

    0熱度

    1回答

    我使用這個命令試過,我得到錯誤 代碼 instances = sqlContext.sql("SELECT instance_id ,instance_usage_code FROM ib_instances WHERE (instance_usage_code) = 'OUT_OF_ENTERPRISE' ") instances.write.format("orc").save("ins

    0熱度

    1回答

    我想在SparkR過濾的DataFrame行的數據幀的時間戳由時間戳與類似的格式如下: df <- createDataFrame(sqlContext, data.frame(ID = c(1,2,3), Timestamp=c('08/01/2014 11:18:30', '01/01/2015 12:13:45',

    0熱度

    1回答

    我是新的火花我有這樣 import org.apache.spark.SparkContext /** * Loading sales csv using DataFrame API */ object CsvDataInput { def main(args: Array[String]) { val sc = new SparkContext(a

    8熱度

    2回答

    我有一個包含2列的數據幀:timestamp,值 timestamp是自時間以來的時間,值是浮點值。 我想合併行的平均值分鐘。 這意味着我想要獲取時間戳來自同一輪分鐘(自紀元以來60秒的時間間隔)的所有行,並將它們合併到單個行中,其中值列將是所有值的平均值。 舉一個例子,讓我們假設我的數據幀看起來像這樣: timestamp value --------- ----- 1441637160

    1熱度

    1回答

    在Spark SQL的幫助下,我試圖過濾掉屬於特定組類別的所有業務項目。 的數據是從JSON文件加載: businessJSON = os.path.join(targetDir, 'yelp_academic_dataset_business.json') businessDF = sqlContext.read.json(businessJSON) 文件的架構如下: businessDF

    1熱度

    1回答

    我有這樣的郵件的recods: Name MailingID Timestamp Event 1 John 1 2014-04-18 Sent 2 John 2 2015-04-21 Sent 3 Mary 1 2015-04-22 Returned 4 Mary 2 2015-04-25 Sent 5 John 1 2015-05-01 Replied 可